一、正则化

在设计机器学习算法时不仅要求在训练集上误差小，而且希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差，这些策略被统称为正则化。因为神经网络的强大的表示能力经常遇到过拟合 ，所以需要使用不同形式的正则化策略

正则化通过对算法的修改来减少泛化误差 ，目前在深度学习中使用较多的策略有参数范数惩罚，提前终止，DropOut等，接下来我们对其进行详细的介绍。

1.1 L1和L2正则化

L1和L2是最常见的正则化方法。它们在损失函数 (cost function)中增加一个正则项，由于添加了这个正则化项，权重矩阵的值减小，因为它假定具有更小权重矩阵的神经网络导致更简单的模型。因此，它也会在一定程度上减少过拟合。然而，这个正则化项在L1和L2中是不同的。

它是一个需要优化的超参数。L2正则化又称为权重衰减，因为其导致权重这里的入是正则化参数，趋向于0(但不全是0)。

这里，我们惩罚权重矩阵的绝对值。其中，入为正则化参数，是超参数，**不同于L2，权重值可能被减少到0.**因此，L1对于压缩模型很有用。其它情况下，一般选择优先选择L2正则化。

dropout是在深度学习领域最常用的正则化技术。Dropout的原理很简单: 假设我们的神经网络结构如下所示，在每个迭代过程中，随机失活某些节点，并且删除前向和后向连接。

因此，每个迭代过程都会有不同的节点组合，从而导致不同的输出，这可以看成机器学习中的集成方法 (ensemble technique)。集成模型一般优于单一模型，因为它们可以捕获更多的随机性。相似地，dropout使得神经网络模型优于正常的模型。

python 复制代码

tf.keras.layers.Dropout(rate)

rate 每一个神经元被丢弃的概率

提前停止 (early stopping) 是将一部分训练集作为验证集 (validation set)。当验证集的性能越来越差时或者性能不再提升，则立即停止对该模型的训练。这被称为提前停止。

在上图中，在虚线处停止模型的训练，此时模型开始在训练数据上过拟合

批标准化(BN层,Batch Normalization)是2015年提出的一种方法，在进行深度网络训练时，大多会采取这种算法，与全连接层一样，BN层也是属于网络中的一层。

BN层是针对单个神经元进行，利用网络训练时一个 minibatch 的数据来计算该神经元xi 的均值和方差,归一化后并重构，因而称为 Batch Normalization。在每一层输入之前，将数据进行BN，然后再送入后续网络中进行学习:

然后在使用变换重构 ，引入了可学习参数Y、B，如果各隐藏层的输入均值在靠近0的区域，即处于激活函数的线性区域不利于训练非线性神经网络，从而得到效果较差的模型。

因此，需要用Y和B对标准化后的结果做进一步处理: