在训练大型神经网络时,神经元之间容易形成"共适应性"(Co-adaptation),即某些神经元过度依赖其他神经元,导致模型过度拟合训练数据的特定细节。暂退法通过在训练期间随机"关掉"一部分神经元,强迫每个神经元都能独立地学习有用的特征。
1. 什么是暂退法?
暂退法(Dropout)的核心操作是在层之间注入噪声:
- 训练期间 :以概率
将隐藏单元置为 0。
- 数学期望不变 :为了保证输出的期望值在训练和测试时一致,我们会对未被丢弃的单元进行缩放,除以
。
- 测试期间:关闭 Dropout,使用完整的网络进行预测,以确保结果的确定性。
2. 为什么 Dropout 有效?
- 集成学习视角:Dropout 每次训练都在训练一个不同的子网络。最终的模型可以看作是无数个共享参数的小模型的"平均组合"。
- 防止过拟合:因为神经元不能依赖特定的邻居(因为邻居随时可能被丢弃),它们必须学到更加"稳健"的特征,从而提升了泛化能力。
3. 代码实战:在多层感知机中应用 Dropout
文件展示了如何在 PyTorch 中通过 nn.Dropout 层轻松实现这一功能。
Python
import torch
from torch import nn
from d2l import torch as d2l
# 定义丢弃概率
dropout1, dropout2 = 0.2, 0.5
# 搭建网络结构
net = nn.Sequential(
nn.Flatten(),
nn.Linear(784, 256),
nn.ReLU(),
# 在第一个全连接层后添加 Dropout
nn.Dropout(dropout1),
nn.Linear(256, 256),
nn.ReLU(),
# 在第二个全连接层后添加 Dropout
nn.Dropout(dropout2),
nn.Linear(256, 10)
)
# 初始化权重
def init_weights(m):
if type(m) == nn.Linear:
nn.init.normal_(m.weight, std=0.01)
net.apply(init_weights)
# 设置超参数与训练
num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss()
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
# 开始训练
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
4. 关键细节与最佳实践
① Dropout 放哪里?
通常将 Dropout 放在激活函数之后 ,下一层全连接层之前。在上面的代码中,它被放置在 nn.ReLU() 之后。
② 丢弃概率
如何设置?
- 靠近输入层的层,通常设置较小的丢弃率(如 0.2),因为输入层包含原始信息。
- 靠近输出层的隐藏层,可以设置较大的丢弃率(如 0.5)。
③ train() 与 eval() 模式切换
这是使用 Dropout 时最容易犯错的地方:
- 在训练时必须调用
net.train(),此时 Dropout 生效。 - 在测试/验证时必须调用
net.eval(),此时 Dropout 自动失效,所有神经元共同参与计算。
5. 总结:正则化的"双剑合璧"
在实际工程中,我们往往同时使用 权重衰退(L2 正则化) 和 暂退法(Dropout):
- 权重衰退:让权重保持细小且平滑。
- 暂退法:让网络结构保持稀疏且健壮。