65-批量归一化

批量归一化层(Batch Normalization,简称 BN 层)详细解析

一、核心公式与两个可学习参数 γ、β

二、BN 的放置位置(关键考点)

标准位置:卷积层 / 全连接层的输出之后,激活函数之前

  1. 错误理解:放在卷积 / 全连接层输入上。 正确流程: 卷积全连接层层激活函数等
  2. 为什么不能放在激活之后? 激活函数会改变数据分布,先归一化再激活,才能稳定送入激活的输入分布,有效缓解内部协变量偏移(ICS),加速收敛、防止梯度消失。

三、全连接层 VS 卷积层:BN 归一化的维度差异

1. 作用在全连接层:在特征维做归一化

假设 batch 大小 = 32,全连接输出维度 [32, 512]

  • 32:一个批次 32 个样本;512:每个样本 512 维特征
  • BN 会对每一列(单个特征维度),统计 32 个样本的均值、方差做归一化;
  • 可学习参数 、 长度 = 特征维度数(512)。

2. 作用在卷积层:在通道维做归一化(CNN 最常用)

假设卷积输出特征图 [32, 256, 28, 28]

  • 32:batch 样本数;256:通道数;28×28:特征图空间尺寸
  • 同一个通道内:把该通道下所有样本、所有空间位置的像素全部当成一组数据,统计均值方差归一化;
  • 通俗理解:每个卷积通道独享一组 、,参数长度 = 通道数(256);
  • 优势:符合 CNN 权重共享特性,保证同一张卷积核提取的特征分布稳定。

四、BN 层四大核心作用

  1. 缓解内部协变量偏移(ICS),大幅加快模型收敛速度 网络训练时,前面层参数更新会导致后面层输入分布不断变化,BN 强制每层输入分布稳定,学习率可以调大,训练迭代轮次显著减少。
  2. 缓解梯度消失 / 梯度爆炸 数据归一化后落在激活函数的梯度敏感区间,梯度不容易饱和,深层网络更容易训练。
  3. 自带轻微正则化效果,降低过拟合风险 每次用一个 batch 的均值方差做归一化,会给训练引入随机噪声,等效于微弱正则,可轻微减少 Dropout 的使用。
  4. 降低模型对参数初始化、学习率的敏感度 不用精细微调初始化权重,学习率可以设置更大,训练稳定性大幅提升。

五、训练阶段 vs 推理阶段 BN 的区别

  1. 训练时:用当前 mini-batch 的均值、方差做归一化,同时更新 、;并且滑动平均记录全局均值、方差。
  2. 推理(预测)时 :不再使用单批次的均值方差,直接用训练阶段统计的全局滑动均值、全局方差做归一化,保证单张图片预测结果稳定。

补充易错点总结

  1. BN 有且仅有两个可学习参数:缩放γ、偏移β;均值μ、方差σ是统计量,不参与梯度更新学习。
  2. 固定放置顺序:Conv/FC → BN → Activation,不能放在激活之后、不能放在层输入。
  3. FC:按特征维归一化;CNN:按通道维归一化。
相关推荐
树獭非懒1 小时前
六、Plan-and-Solve智能体:学会三思而后行
人工智能·llm·agent
武子康1 小时前
调查研究-214 OpenAI:Agent 不是更聪明的聊天框,而是新的工作组织方式
人工智能·openai·agent
火山引擎开发者社区1 小时前
告别手动翻资料:用 Agent Plan 搞定销售档案与问答
人工智能
鹰影471 小时前
一款AI笔记助手和远程同步的markdown笔记idea-note
人工智能·笔记·rust·typescript·react
城事漫游Molly1 小时前
如何写出有说服力的研究论文Introduction——论证框架切入法
人工智能·论文写作·ai for science·博士生必读
FL16238631291 小时前
养猪场耳标检测数据集VOC+YOLO格式744张1类别有增强
深度学习·yolo·机器学习
m0_564876841 小时前
claude agent 使用及存放位置查询
深度学习
行业研究员1 小时前
解决方案 | 腾讯云天御金融反电诈解决方案
人工智能·金融·腾讯云·金融反电诈·双模反诈
倔强的石头1061 小时前
让时间序列“开口说话”:TimechoAI 如何把工业数据变成安全可靠的智能洞察
人工智能