Datawhale X 李宏毅苹果书 AI夏令营-深度学习进阶task3:批量归一化

1.批量归一化

如果误差表面很崎岖，它比较难训练。批量归一化（Batch Normalization，BN）就是其中一个"把山铲平"的想法

如图所示，假设两个参数对损失的斜率差别非常大，在 w1 这个方向上面，斜率变化很小，在 w2 这个方向上面斜率变化很大。

2.特征归一化

如果输入的特征范围相差很多，那么就可能会出现以上问题。如果我们可以给不同的维度，同样的数值范围的话，那我们可能就可以制造比较好的误差表面，让训练变得比较容易一点其实有很多不同的方法，这些不同的方法往往就合起来统称为特征归一化（feature normalization）。

以下所讲的方法只是特征归一化的一种可能性，即 Z 值归一化（Z-score normalization），也称为标准化（standardization）。假设 x1 到 xR，是我们所有的训练数据的特征向量。我们把所有训练数据的特征向量，统统都集合起来。向量 x1 里面就x11 代表 x1 的第一个元素，x21 代表 x2 的第一个元素，以此类推。我们把不同笔数据即不同特征向量，同一个维度里面的数值，把它取出来，对于每个维度 i，计算其平均值（mean） mi和标准差（standard deviation）σi。接下来我们就可以做一种归一化。

3.深度学习中的归一化

x˜ 代表归一化的特征，把它丢到深度网络里面，去做接下来的计算和训练。x˜1 通过第一层得到 z1，有可能通过激活函数，不管是选 sigmoid 或者 ReLU 都可以，再得到 a1，接着再通过下一层等等。

接下来可以通过激活函数得到其他向量，µ 跟 σ 都是根据 z1, z2, z3 计算出来的。改变了 z1 的值，a1 的值也会改变，µ 和 σ 也会改变。µ,σ 改后，z2, a2, z3, a3的值也会改变。之前的 x˜1, x˜2 x˜3 是独立分开处理的，但是在做特征归一化以后，这三个样本变得彼此关联了。所以有做特征归一化的时候，可以把整个过程当做是网络的一部分。即有一个比较大的网络，该网络吃一堆输入，用这堆输入在这个网络里面计算出 µ,σ，接下来产生一堆输出。

测试有时候又称为推断（inference）

批量归一化在测试的时候，并不需要做什么特别的处理，PyTorch 已经处理好了。在训练的时候，如果有在做批量归一化，每一个批量计算出来的 µ,σ，都会拿出来算移动平均（moving average）。假设现在有各个批量计算出来的 µ1, µ2, µ3, · · · · · · , µt，则可以计算移动平均

其中，µ¯ 是 µ 的个平均值，p 是因子，这也是一个常数，这也是一个超参数，也是需要调的那种。

4.内部协变量偏移

原始的批量归一化论文里面提出内部协变量偏移（internal covariate shift）概念。我们在计算 B 更新到 B′ 的梯度的时候，这个时候前一层的参数是 A，或者是前一层的输出是 a。那当前一层从 A 变成 A′ 的时候，其输出就从 a 变成 a′ 。但是我们计算这个梯度的时候，是根据 a 算出来，所以这个更新的方向也许它适合用在 a 上，但不适合用在 a′ 上面。因为我们每次都有做批量归一化，就会让 a 和a′ 的分布比较接近，也许这样就会对训练有帮助。