从激活函数到超参搜索：一份“能落地”的深度学习手册

从激活函数到超参搜索：一份"能落地"的深度学习手册

一句话总结：

隐藏层默认 ReLU；如果训练很深且显存充足，换成 Swish 往往有 0.5%~1% 的额外收益；输出层二分类用 Sigmoid，多分类用 Softmax 。

现象	快速判断	根因	实战组合拳
梯度消失	层越靠前，‖∂Loss/∂W‖趋 0	链式<1 连乘	1) ReLU 家族激活 2) BN + 残差 3) Xavier/He 初始化
梯度爆炸	Loss → NaN，‖∂Loss/∂W‖>100	链式>1 连乘	1) Gradient Clip by norm=5 2) 降低 lr 1 个量级 3) L2 weight decay 1e-4

BN 能把激活值拉回 N(0,1)，相当于给梯度做了"保险丝"：既防消失也防爆炸。

技术	作用面	训练/测试差异	调参经验
Dropout	神经元	训练 p=0.5，测试关闭	小网络 0.3，大网络 0.5；与 BN 共存时降至 0.1
L2	权重	无差异	系数 1e-4 起步，观察验证集再 ×10 或 ÷10
Early Stop	迭代次数	无差异	验证 loss 连续 5 epoch 不降即停
Data Aug	样本	无差异	分类任务先水平翻转+随机裁剪，再考虑颜色扰动

注意：

BN 本身自带噪声，ResNet 后几层可完全去掉 Dropout，不降精度反而省显存。

激活函数	推荐初始化	原理	代码一行
ReLU	He	方差=2/fan_in	`torch.nn.init.kaiming_normal_`
Tanh/Sigmoid	Xavier	方差=2/(fan_in+fan_out)	`torch.nn.init.xavier_normal_`
全零初始化	×	对称破坏，梯度相同	永远别用

阶段	数据量	推荐组合	学习率起点
快速实验	任意	Adam	1e-3
中期精调	>10k	AdamW + CosineLR	3e-4
收官冲刺	任意	SGD+Momentum	1e-2（再 ×0.1 两次）

经验：

先用 Adam 把验证 AUC 拉到 0.9x，再换 SGD 往往能再提 0.5~1 个点，代价是 3× 训练时间。

搜索套路：
1. 从 {3,1,0.3,0.1,0.03,0.01} 跑 3 epoch，找最快降 loss 的那个；
2. 用 Cosine/One-Cycle 在剩余 epoch 里平滑下降；
3. 最后 10% epoch 做 Warm-Restarts 微调。
自动化 ：

把上述过程写成回调函数，配合早停，一次训练就能拿到"手工调 3 天"的效果。

显卡	显存	最大 bs	平衡策略
1080Ti	11 G	64~128	梯度累加 4 步 = 有效 256
V100	32 G	256~512	直接上，配合 LARS 可上千

规律：

线性缩放 lr 只适用于 ≤512；再大时用 LARS 层自适应学习率，否则 val acc 会掉。

贝叶斯四件套 ：

先冻结底层训练 5 epoch，再解冻一半层继续 10 epoch，可减小 30% 过拟合风险。

"如果 loss 不下降，先把 lr 除以 10，再把 batch size 乘 2，最后检查数据标签。"

------ 深度学习第一定律

:
程序员学长《终于把神经网络中的激活函数搞懂了！！》
:
CSDN《神经网络激活函数优缺点和比较》