dropout - 技术栈

dropout

Recursions2024-01-09 9:46

Dropout是一种用于神经网络的正则化技术，旨在减少过拟合。过拟合通常在模型在训练数据上表现得很好，但在新数据上表现不佳时发生。Dropout通过在训练过程中随机关闭（丢弃）神经元的方式来防止过拟合。

Dropout的原理如下：

随机丢弃神经元： 在每个训练迭代中，Dropout会随机选择一些神经元并将其输出置零。这相当于将这些神经元从网络中删除，因此网络的每个训练迭代都会使用不同的子集神经元。
独立丢弃： 每个神经元都有一个与其相关的丢弃概率，通常用超参数 dropout 表示。该概率表示在训练时每个神经元被丢弃的概率。例如，如果 dropout=0.5，则每个神经元在每个训练迭代中都有50%的概率被丢弃。
防止过拟合： Dropout通过减少神经元之间的共适应性（co-adaptation）来防止过拟合。因为每个神经元都可能在某个训练迭代中被丢弃，网络不能过度依赖于任何一个特定的神经元，从而增加了模型的泛化能力。
测试时全保留： 在测试阶段，所有神经元都被保留，但其输出值要乘以 1 - dropout 这个比例。这是为了在测试时保持输入和输出之间的一致性，因为在训练时某些神经元被丢弃了。

Dropout的引入可以看作是在训练过程中对模型进行了集成学习，通过多次训练不同的子集，模型能够更鲁棒地适应不同的数据分布，从而提高泛化性能。

复制代码

def dropout_layer(X,dropout):
    assert 0 <= dropout <= 1
    if dropout == 1:
        return torch.zeros_like(X)
    if dropout == 0:
        return X
    mask = (torch.rand(X.shape) > dropout).float()
    return mask * X / (1.0 - dropout)