吴恩达《深度学习》之看懂 Inverted Dropout

十几年前，深度学习刚刚兴起时，实验室里无数黑客和博士生都遭遇了一个极其经典、甚至可以说是每个手写框架的人必经的"数值坍塌（Numerical Scale Collapse）"陷阱。

你注意到没有？你的网络在训练时表现得很兴奋，可是一到测试集（Evaluation）上，预测结果的数值量级就像断崖式下跌，直接缩水了。

核心知识点：

场景问题： 手写 Dropout 时漏掉了缩放操作，导致训练集和测试集数值量级不匹配（测试集预测数值大幅度萎缩）。

核心决策： 补上反向随机失活（Inverted Dropout）的灵魂一步：在训练阶段乘以掩码后，**强行除以 keep_prob**。

数学核心： 保持前向传播在训练和测试阶段的期望值守恒（Expectation Conservation） ，即 E $Atrain$ =E $Atest$ \mathbb{E} $A_{\\text{train}}$ = \mathbb{E} $A_{\\text{test}}$ E $Atrain$ =E $Atest$ 。

今天我们用最纯粹的"期望值守恒"，把这个藏在训练和测试之间的"数学剪刀差"给彻底揪出来。

第一步：拆解训练期的"大裁员"

我们先来看看你在训练（Training）时对网络做了什么。你的代码里写了：D = np.random.rand(...) < keep_prob。

提问： 假设我们有一个神经元层 AAA，里面并排站着 100 个神经元，每个神经元传导的信号强度（数值）平均是 1.0。此时这一层的总能量（信号之和）大概是 100。

现在，你设定 keep_prob = 0.8（保留概率 80%）。当这行代码运行完，并执行了矩阵点乘 A = np.multiply(A, D) 之后，平均会有多少个神经元被无情地"抹杀"变成了 0？剩下活着的神经元有多少个？这时候整层网络的总能量变成了多少？

解析： 有 20%（20个）的神经元死掉了，只有 80 个还活着。这一层的总能量瞬间从 100 萎缩到了 80！

也就是说，因为 Dropout 的存在，我们在训练时，网络接收到的信号强度天然地被打了一个 8 折（数值空间上乘以了 keep_prob）。

第二步：测试期的"全员满血"与数值剪刀差

现在，我们把模型切到测试（Testing/Inference）阶段。根据 Dropout 的定义，测试时为了保证预测的确定性，我们不再随机关闭神经元，所有的神经元全部保持激活 （即不使用 Dropout 掩码 DDD）。

提问： 到了测试集，那 100 个神经元全员满血上场，没有任何人被开除。每个人的能量还是 1.0。

请问：此时测试期这一层吐给下一层的总能量是多少？请死死盯着这两个数字：训练期的能量总和（80） vs 测试期的能量总和（100）。你看出这里面致命的冲突了吗？为什么测试集的预测结果量级会显得完全不对劲？

因果闭环： 冲突太明显了！

你的后层网络（比如后面的线性层或分类器）在训练时，早已经习惯了"只有 80 能量"的虚弱信号，它的权重 WWW 是针对 80 的水位线进行优化的。结果到了测试期，你突然洪闸放水，灌进去了 100 的满载能量。后面的网络直接被大水淹没，数值量级完全匹配不上了！

第三步：寻找解药------反向随机失活（Inverted Dropout）

为了解决这个训练和测试的水位差，早期的方法（如普通的 Dropout）是在测试时，强行把测试信号乘以 0.8。但这意味着每次评估测试都要修改前向传播代码，非常不具备工业美感。

于是，伟大的 Inverted Dropout（反向随机失活） 诞生了。它的核心哲学是："既然测试期全员上场时能量是 100，那我们就让训练期在裁员之后，能量也强行撑回 100！"

终极追问： 重新回到训练期。100 个神经元被你裁掉了 20 个，只剩下 80 个活着的兵。如果我们希望这 80 个残兵败将，爆发出和原来 100 个人完全一样的总能量（100）。

在你的训练代码中，把 A 乘以掩码 D 之后，你漏掉了哪一步关键的缩放操作？你应该让这群活着的士兵，集体把自己的信号强度乘以（或除以）一个什么关于 keep_prob 的系数？

数学真理浮现：

应该让剩下的每个人都除以 keep_prob（即除以 0.8，相当于乘以 1.25）！

80×1.25=10080 \times 1.25 = 10080×1.25=100

这样一来，80 个活着的神经元由于"集体打了兴奋剂"，总能量被强行抬高回了 100，完美和测试期的水位线持平！

第四步：PyTorch 里的"数值工业标准"落地

在 PyTorch 的底层 C++ 实现中，标准 Dropout 严格遵循了这一步缩放。如果你用 NumPy 手写，正确的修正如下：

python 复制代码

# 你的原始训练代码：
D = np.random.rand(*A.shape) < keep_prob
A = np.multiply(A, D)

# ✨ 补上漏掉的灵魂一步：给活着的神经元"打兴奋剂"，强行维持期望值守恒！
A = A / keep_prob

在 PyTorch 工业级开发中，我们直接调用官方模块，它在后台已经把这一步数值稳定性操作做到了极致：

python 复制代码

import torch
import torch.nn as nn

class RobustNetwork(nn.Module):
    def __init__(self, input_dim, keep_prob=0.8):
        super(RobustNetwork, self).__init__()
        self.fc = nn.Linear(input_dim, input_dim)
        # PyTorch 的 nn.Dropout 接收的是 p（失活概率），所以 p = 1 - keep_prob = 0.2
        # 它在内部 forward 训练时，会自动对结果除以 0.8 (keep_prob)
        self.dropout = nn.Dropout(p=1 - keep_prob)

    def forward(self, x):
        x = torch.relu(self.fc(x))
        # 训练时：自动置零并放大 1/keep_prob 倍
        # 测试时（model.eval()）：自动变成恒等映射（Identity），什么都不做
        x = self.dropout(x) 
        return x

总结

让我们用最后一行极客因果链，复盘这个优雅的数值稳定决策：

训练期随机斩断神经元 ⟹ 信号方差与期望值自发布下挫 (k) ⟹ 漏掉缩放导致测试集发生数值断层\text{训练期随机斩断神经元} \implies \text{信号方差与期望值自发布下挫 } (k) \implies \text{漏掉缩放导致测试集发生数值断层}训练期随机斩断神经元⟹信号方差与期望值自发布下挫 (k)⟹漏掉缩放导致测试集发生数值断层

在训练期除以 keep_prob ⟹ 强行将残存信号放大 1k 倍 ⟹ 训练与测试达成期望值完美守恒 ⟹ 测试期无需任何额外代价\text{在训练期除以 } keep\_prob \implies \text{强行将残存信号放大 } \frac{1}{k} \text{ 倍} \implies \text{训练与测试达成期望值完美守恒} \implies \text{测试期无需任何额外代价}在训练期除以 keep_prob⟹强行将残存信号放大 k1 倍⟹训练与测试达成期望值完美守恒⟹测试期无需任何额外代价

这就是 Inverted Dropout 的黑客美学：在训练时把痛苦（数学缩放）自己扛下来，从而赋予了测试期完全不需要任何额外计算的纯净与优雅。

欢迎在评论区留下你的思考： Inverted Dropout 完美解决了前向传播时的期望值控制。那么请你想一想，由于我们在训练时把激活值放大了 1keep_prob\frac{1}{\text{keep\_prob}}keep_prob1 倍，在反向传播（Backpropagation）计算梯度时，这个缩放系数会对梯度的传导产生怎样的连锁反应？