在模型训练中,如果特征过多而数据较少,模型很容易为了拟合每一个样本而产生巨大的权重值,导致过拟合。权重衰退的核心思想就是:通过在损失函数中添加惩罚项,让模型偏好更小的权重。
1. 为什么"小权重"能防止过拟合?
- 模型复杂度控制:如果一个特征的权重 w很大,意味着输入微小的变化都会引起输出的剧烈波动,模型变得非常"敏感"且不稳定。
- 平滑性 :较小的权重对应更平滑的拟合曲线。通过限制
,我们可以强制模型变得简单。
2. 数学原理:L2 范数惩罚
我们在原始的损失函数 后面加上一个"正则项":
(超参数) :控制衰退的强度。
时不限制;
越大,权重被压制得越厉害。
- 更新规则 :在梯度下降时,权重
会先乘以一个小于 1 的系数(即"衰退"),再减去梯度。
3. 代码实战:从零实现 vs 简洁实现
文件演示了如何在高度过拟合的场景(特征 200 个,训练样本仅 20 个)下应用权重衰退。
① 从零开始实现(手动计算惩罚项)
Python
def l2_penalty(w):
# L2 惩罚项即权重平方和的一半
return torch.sum(w.pow(2)) / 2
# 在训练循环中:
l = loss(net(X), y) + lambd * l2_penalty(w)
l.backward()
updater.step()
② 简洁实现(利用优化器的 weight_decay 参数)
这是工业界最常用的方法。PyTorch 的优化器已经内置了这一机制。
Python
def train_concise(wd):
# 通过 weight_decay 参数直接指定 λ 值
# 注意:通常只对权重 w 进行衰减,而不对偏置 b 进行衰减
trainer = torch.optim.SGD([
{"params": net[0].weight, "weight_decay": wd},
{"params": net[0].bias}
], lr=lr)
# 后续训练代码无需手动加惩罚项,PyTorch 会自动处理
for epoch in range(num_epochs):
for X, y in train_iter:
trainer.zero_grad()
l = loss(net(X), y)
l.backward()
trainer.step()
4. 关键实验结论
根据文件中的训练结果对比:
- 无权重衰退 (wd=0) :训练误差降为 0,但验证误差非常高,呈现严重的过拟合。
- 加入权重衰退 (wd=3) :虽然训练误差有所上升,但验证误差显著下降。这说明权重衰退成功抑制了模型对噪音的"死记硬背",提升了泛化能力。
5. 总结:权重衰退的生存指南
- 参数分离 :在高级实践中,建议只衰减
weight,不衰减bias(因为偏置不会导致模型不稳定性)。 - 调参建议 :如果模型过拟合严重,尝试加大
weight_decay的值(如从 1e-4 改为 1e-2)。 - 配合使用 :权重衰退常与 Dropout 或 早停法(Early Stopping) 结合使用,共同对抗过拟合。
💡 学习小结
权重衰退本质上是数学上的"拉格朗日乘子法"在深度学习中的应用。它通过一个优雅的惩罚项,让模型在"拟合数据"和"保持简单"之间找到了完美的平衡。