第二门课：改善深层神经网络＜超参数调试、正则化及优化＞-深度学习的实用层面

文章目录

[1 训练集、验证集以及测试集](#1 训练集、验证集以及测试集)
[2 偏差与方差](#2 偏差与方差)
[3 机器学习基础](#3 机器学习基础)
[4 正则化](#4 正则化)
[5 为什么正则化可以减少过拟合？](#5 为什么正则化可以减少过拟合？)
[6 Dropout<随机失活>正则化](#6 Dropout<随机失活>正则化)
[7 理解Dropout](#7 理解Dropout)
[8 其他正则化方法](#8 其他正则化方法)
[9 归一化输入](#9 归一化输入)
[10 梯度消失和梯度爆炸](#10 梯度消失和梯度爆炸)
[11 神经网络的权重初始化](#11 神经网络的权重初始化)
[12 梯度的数值逼近](#12 梯度的数值逼近)
[13 梯度检验](#13 梯度检验)
[14 关于梯度检验的注记](#14 关于梯度检验的注记)

1 训练集、验证集以及测试集

验证集与测试集要确保来自同一个分布

因为验证集 要用来评估不同的模型，尽可能的优化性能

但由于深度学习需要大量的训练数据，为了获取大规模的训练数据集，可以采用当前流行的创意策略，比如：网页抓取，代价就是训练集数据与验证集数据和测试集数据有可能不是来自同一个分布。
测试集 的目的是对最终所选定的神经网络系统做出无偏评估
训练集 （train set） ------ 用于模型拟合的数据样本。
验证集 （development set）------ 是模型训练过程中单独留出的样本集，用于调整模型的超参数以及对模型的能力进行初步评估。通常用来在模型迭代训练时，用以验证当前模型泛化能力（准确率，召回率等），以决定是否停止继续训练。
测试集（test set） ------ 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

2 偏差与方差

如果给数据集拟合一条直线，可能得到一个逻辑回归拟合

第一个为偏差高的情况，称为"欠拟合 "

第二个为复杂程度适中，数据拟合适度的分类器

第三个分类器偏差较高，数据过度拟合

第一种训练集很好，验证集误差大，可能是过度拟合了训练集，某种程度上，验证机并没有充分利用交叉验证集的作用，则称之为"高方差"。

第二种训练集与验证集相差不多，则证明是训练集拟合度不高，可能会分辨不出目标，即数据欠拟合，则算法高偏差。对于验证集产生的结果是合理的，与上面一张图片的high bias相似。

3 机器学习基础

首先要知道算法的偏差是否高，如果偏差较高，试着评估训练集或训练数据的性能。如果偏差较高甚至无法拟合训练集，则选择一个新网络，然后反复尝试，直到可以拟合数据为止。如果网络足够大，通常可以很好的拟合训练集。

如果方差高，最好的解决方法就是采用更多数据以及正则化

4 正则化

只正则化w是因为w通常是高维度矢量 ，已经可以表达高方差问题，w可能含有很多参数，我们不可能拟合所有参数，而b只是单个数字，所以w几乎涵盖了所有参数，而不是b，如果加了参数b也没有什么太大的影响，因此b只是众多参数中的一个，因此我们通常忽略不计。

λ是正则化参数，通常使用验证集或交叉验证来配置这个参数。

λ是一个需要调整的超级参数。
L2范数正则化也被称为"权重衰减"

Backprop输出的最初梯度值即反向传播输出的最初梯度值

5 为什么正则化可以减少过拟合？

当 λ 设置的很大的时候，最终W 会变得很接近于 0，神经网络中的很多单元的作用变得很小，整个网络越来越接近逻辑回归。在λ 设置的很大的时候，高方差会变为高偏差 ，当λ 取得一个适中的值时，不会再存在高偏差以及高方差。
λ 增大时 ，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，不是复杂的高度非线性函数，不会发生过拟合。

6 Dropout<随机失活>正则化

Dropout遍历网络的每一层，并设置消除神经网络中节点的概率，假设每个节点得以保留和消除的概率为0.5，设置完节点概率，消除一部分节点，然后消除从该节点进出的连线，最后得到一个节点更少、规模更小的网络，然后使用backprop进行训练。

以三层网络为例：

python 复制代码

keep_prob = 0.8# 设置神经元保留概率为0.8，消除任意一个隐藏单元的概率是0.2
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob   
#生成指定维度的的[0,1)范围之间的随机数，输入参数为维度，shape[0]只输出行数，shape[1]只输出列数。矩阵中随机数小于0.8为1，否则为0
a3 = np.multiply(a3, d3)
a3 /= keep_prob  #是为了保证下一层计算的时候期望值不变。

事实上，dropout也是产生权重收缩的效果。
当keep_prob = 1的时候，就会保留原始所有的神经元，即关闭dropout功能 。

7 理解Dropout

1、dropout随机删除网络中的神经单元

2、dropout将产生收缩权重的平方范数的效果 ，和我们之前讲过的L2正则化类似，实施dropout的结果是它会压缩权重，并完成一些预防过拟合的外层正则化。与L2正则化不同的是，被应用的方式不同，dropout也会有所不同，甚至更适用于不同的输入范围。L2对不同权重的衰减是不同的，它取决于倍增的激活函数的大小。

这是一个拥有三个输入特征的网络，其中一个要选择的参数是keep-prob，即每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层，矩阵W^{[1]是7×3，第二个权重矩阵W}[2]是7×7，第三个权重矩阵W^{[3]是3×7，以此类推，W}[2]是最大的权重矩阵，因为拥有最大参数集，即7×7，为了预防矩阵的过拟合，对于这一层（第二层），它的keep-prob值应该相对较低，假设是0.5。对于其它层，过拟合的程度可能没那么严重，它们的keep-prob值可能高一些，可能是0.7，这里是0.7。如果在某一层，不必担心其过拟合的问题，那么keep-prob可以为1。