为什么 Batch Normalization 放在全连接/卷积层的输出之后？

促膝2025-08-01 17:10

🔁 回顾神经网络层的组合结构：

通常一个网络的标准顺序是这样的：

Linear (或 Conv) → BatchNorm → Activation (比如 ReLU)

也就是说：

先进行线性变换（全连接或者卷积）；
然后对输出做 BatchNorm；
最后经过非线性激活函数。

✅ 为什么不是在输入上做 BatchNorm？

这个问题的核心就在这里。

📌 全连接层公式：

y = Wx + b

如果你在 输入 x 上做 BatchNorm，那么你归一化的是输入特征，但神经网络的训练核心在于：

调整 W 和 b，使得输出 y 更容易被后续网络层处理。

而如果你在 输出 y 上做 BatchNorm，就可以直接控制 每个输出通道的均值和方差，这可以：

减少内部协变量偏移（internal covariate shift）；
更快地收敛；
更容易训练深层网络；
并且配合 γ 和 β 参数，依然可以恢复表达能力。

上一篇：在Linux中创建LVGL应用

下一篇：纯血鸿蒙 AudioRenderer+AudioCapturer+RingBuffer 实现麦克风采集+发声

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 05UV安装并设置国内源 06Linux下V2Ray安装配置指南 07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）08Spring Boot 4.0 发布总结：新特性、依赖变更与升级指南 09全球最强模型Grok4，国内已可免费使用！（附教程）1046个Nano-banana 精选提示词，持续更新中