207_深度学习调优：透彻理解权重衰退（L2 正则化）

在模型训练中，如果特征过多而数据较少，模型很容易为了拟合每一个样本而产生巨大的权重值，导致过拟合。权重衰退的核心思想就是：通过在损失函数中添加惩罚项，让模型偏好更小的权重。

1. 为什么"小权重"能防止过拟合？

模型复杂度控制：如果一个特征的权重 w很大，意味着输入微小的变化都会引起输出的剧烈波动，模型变得非常"敏感"且不稳定。
平滑性 ：较小的权重对应更平滑的拟合曲线。通过限制，我们可以强制模型变得简单。

2. 数学原理：L2 范数惩罚

我们在原始的损失函数后面加上一个"正则项"：

(超参数) ：控制衰退的强度。时不限制；越大，权重被压制得越厉害。
更新规则 ：在梯度下降时，权重会先乘以一个小于 1 的系数（即"衰退"），再减去梯度。

3. 代码实战：从零实现 vs 简洁实现

文件演示了如何在高度过拟合的场景（特征 200 个，训练样本仅 20 个）下应用权重衰退。

① 从零开始实现（手动计算惩罚项）

Python

复制代码

def l2_penalty(w):
    # L2 惩罚项即权重平方和的一半
    return torch.sum(w.pow(2)) / 2

# 在训练循环中：
l = loss(net(X), y) + lambd * l2_penalty(w)
l.backward()
updater.step()

② 简洁实现（利用优化器的 weight_decay 参数）

这是工业界最常用的方法。PyTorch 的优化器已经内置了这一机制。

Python

复制代码

def train_concise(wd):
    # 通过 weight_decay 参数直接指定 λ 值
    # 注意：通常只对权重 w 进行衰减，而不对偏置 b 进行衰减
    trainer = torch.optim.SGD([
        {"params": net[0].weight, "weight_decay": wd},
        {"params": net[0].bias}
    ], lr=lr)
    
    # 后续训练代码无需手动加惩罚项，PyTorch 会自动处理
    for epoch in range(num_epochs):
        for X, y in train_iter:
            trainer.zero_grad()
            l = loss(net(X), y)
            l.backward()
            trainer.step()

4. 关键实验结论

根据文件中的训练结果对比：

无权重衰退 (wd=0) ：训练误差降为 0，但验证误差非常高，呈现严重的过拟合。
加入权重衰退 (wd=3) ：虽然训练误差有所上升，但验证误差显著下降。这说明权重衰退成功抑制了模型对噪音的"死记硬背"，提升了泛化能力。

5. 总结：权重衰退的生存指南

参数分离 ：在高级实践中，建议只衰减 weight，不衰减 bias（因为偏置不会导致模型不稳定性）。
调参建议 ：如果模型过拟合严重，尝试加大 weight_decay 的值（如从 1e-4 改为 1e-2）。
配合使用 ：权重衰退常与 Dropout 或 早停法（Early Stopping） 结合使用，共同对抗过拟合。

💡 学习小结

权重衰退本质上是数学上的"拉格朗日乘子法"在深度学习中的应用。它通过一个优雅的惩罚项，让模型在"拟合数据"和"保持简单"之间找到了完美的平衡。