深度学习500问——Chapter13：优化算法（2）

文章目录

[13.9 如何进行特征选择（feature selection）](#13.9 如何进行特征选择（feature selection）)

[13.9.1 特征类型有哪些](#13.9.1 特征类型有哪些)

[13.9.2 如何考虑特征选择](#13.9.2 如何考虑特征选择)

[13.9.3 特征选择方法分类](#13.9.3 特征选择方法分类)

[13.9.4 特征选择的目的](#13.9.4 特征选择的目的)

[13.10 梯度消失/梯度爆炸的原因，以及解决办法](#13.10 梯度消失/梯度爆炸的原因，以及解决办法)

[13.10.1 为什么要使用梯度更新规则](#13.10.1 为什么要使用梯度更新规则)

[13.10.2 梯度消失/梯度爆炸产生的原因](#13.10.2 梯度消失/梯度爆炸产生的原因)

[13.10.3 梯度消失、爆炸的解决方案](#13.10.3 梯度消失、爆炸的解决方案)

[13.11 深度学习为什么不用二阶优化](#13.11 深度学习为什么不用二阶优化)

[13.12 为什么要设置单一数字评估指标，设置指标的意义](#13.12 为什么要设置单一数字评估指标，设置指标的意义)

[13.13 训练/验证/测试集的定义及划分](#13.13 训练/验证/测试集的定义及划分)

[13.14 什么是TOP5错误率](#13.14 什么是TOP5错误率)

[13.15 什么是泛化误差，如何理解方差和偏差](#13.15 什么是泛化误差，如何理解方差和偏差)

13.9 如何进行特征选择（feature selection）

13.9.1 特征类型有哪些

对象本身会有许多属性。所谓特征，即能在某方面能表征对象的一个或者一组属性。一般地，我们可以把特征分为如下三种类型：

（1）相关特征：对于特定的任务和场景具有一定帮助的属性，这些属性通常能有效提升算法性能。

（2）无关特征：在特定的任务和场景下完全无用的属性，这些属性对对象在本目标环境下完全无用。

（3）冗余特征：同样是在特定的任务和场景下具有一定帮助的属性，但这类属性已过多的存在，不具有产生新的信息的能力。

13.9.2 如何考虑特征选择

当完成数据预处理之后，对特定的场景和目标而言很多纬度上的特征都是不具有任何判别或者表征能力的，所以需要对数据在维度上进行筛选。一般地，可以从以下两个方面考虑来选择特征：

（1）特征是否具有发散性：某个特征若在所有样本上的都是一样的或者接近一致，即方差非常小。也就是说所有样本的都具有一致的表现，那这些就不具有任何信息。

（2）特征与目标的相关性：与目标相关性高的特征，应当优先选择。

13.9.3 特征选择方法分类

根据特征选择的形式又可以将特征选择方法分为3种：

（1）过滤法：按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值对个数，选择特征。

（2）包装法：根据目标函数（通常说预测效果评分），每次选择若干特征，或者排除若干特征。

（3）嵌入法：先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

13.9.4 特征选择的目的

（1）减少特征维度，使模型泛化能力更强，减少过拟合。

（2）降低任务目标的学习难度。

（3）一组优秀的特征通常能有效的降低模型复杂度，提升模型效率。

13.10 梯度消失/梯度爆炸的原因，以及解决办法

13.10.1 为什么要使用梯度更新规则

目前深度学习的火热，其最大的功臣之一就是反向传播。反向传播，即根据损失评价函数计算的误差，计算得到梯度，通过梯度反向传播的方式，指导深度网络权值的更新优化。这样做的原因在于，深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为说一个非线性函数，因此整个深度网络可以视为是一个复合的非线性多元函数：

我们最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射，假设不同的输入，输出的最优解是 g(x)，那么，优化深度网络就是为了寻找合适的权值，满足 Loss=L(g(x), F(x)）取得极小值点，比如最简单的损失函数：，假设损失函数的数据空间是下图这样的，我们最优的权值就是为了寻找下图中的最小值点，对于这种数学寻找最小值问题，采用梯度下降的方法再适合不过了。

图 13.10.1

13.10.2 梯度消失/梯度爆炸产生的原因

本质上，梯度消失和爆炸是一种情况。在深层网络中，由于网络过深，如果初始得到的梯度过小，或者传播途中在某一层上过小，则在之后对层上得到的梯度会越来越小，即产生了梯度消失。梯度爆炸也是同样的。一般地，不合理的初始化以及激活函数，如sigmoid等，都会导致梯度过大或者过小，从而引起消失/爆炸。

下面分别从网络深度角度以及激活函数角度进行解释：

（1）网络深度

若在网络很深时，若权重初始化较小，各层上的相乘得到的数值都会0-1之间的小数，而激活函数梯度也是0-1之间的数。那么连乘后，结果数值就会变得非常小，导致梯度消失 。若权重初始化较大，大到乘以激活函数对导数都大于1，那么连乘后，可能会导致求导到结果很大，形成梯度爆炸。

（2）激活函数

如果激活函数选择不合适，比如使用sigmoid，梯度消失就会很明显了，原因看下图，左图是sigmoid的函数图，右边是其导数的图像，如果使用sigmoid作为损失函数，其梯度是不可能超过0.25的，这样经过链式求导之后，很容易发生梯度消失。

图 13.8.2 sigmoid函数与其导数

13.10.3 梯度消失、爆炸的解决方案

1、预训练加微调

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层"预训练"（pre-training）；在预训练完成后，再对整个网络进行"微调"（fine-tunning）。Hinton在训练深度信念网络（Deep Belief Networks中，使用了这个方法，在各层预训练完成后，再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。

2、梯度剪切、正则

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。

另外一种解决梯度爆炸的手段是采用权重正则化（weithts regularization）比较常见的是L1和L2正则。

3、ReLu、LeakReLu等激活函数

（1）ReLu：其函数的导数在正数部分是恒等于1，这样在深层网络中，在激活函数部分就不存在导致梯度过大或者过小的问题，缓解了梯度消失或者爆炸，同时也方便计算。当然，其也存在一些缺点，例如过滤到了负数部分，导致部分信息的丢失，输出的数据分布不在以0为中心，改变了数据分布。

（2）LeakReLu：就是为了解决relu的0区间带来的影响，其数学表达式为：

其中，k是leak系数，一般选择0.01或者0.02，或者通过学习而来。

4、BatchNorm

Batchnorm是深度学习发展以来提出的最重要的成果之一了，目前已经被广泛的应用到了各大网络中，具有加速网络收敛速度，提升训练稳定性的效果，Batchnorm本质上是解决反向传播过程中的梯度问题。Batchnorm全名是Batch Normalization，简称BN，即批规范化，通过规范化操作将输出信号x规范化到均值为0，方差为1保证网络的稳定性。

5、残差结构

残差的方式，能使得深层的网络梯度通过跳级连接路径直接返回到浅层部分，使得网络无论多深都能将梯度进行有效的回传。

6、LSTM

LSTM全称是长短期记忆网络（long-short term memory networks），是不那么容易发生梯度消失的，主要原因在于LSTM内部复杂的"门"(gates)。在计算时，将过程中的梯度进行了抵消。

13.11 深度学习为什么不用二阶优化

目前深度学习中，反向传播主要是依靠一阶梯度。二阶梯度在理论和实际上都是可以应用都网络中的，但相比于一阶梯度，二阶优化会存在以下一些主要问题：

（1）计算量大，训练非常慢。

（2）二阶方法能够更快地求得更高精度的解，这在浅层模型是有益的。而在神经网络这类深层模型中对参数的精度要求不高，甚至不高的精度对模型还有益处，能够提高模型的泛化能力。

（3）稳定性。二阶方法能更快求高精度的解，同样对数据本身要的精度也会相应的变高，这就会导致稳定性上的问题。

13.12 为什么要设置单一数字评估指标，设置指标的意义

在训练模型时，无论是调整超参数，还是调整不同的模型算法，我们都需要一个有效的评价指标，这个评价标准能帮助我们快速了解新的尝试后模型的性能是否更优。例如在分类时，我们通常会选择选择准确率，当样本不平衡时，查准率和查全率又会是更好的评价指标。所以在训练模型时，如果设置了单一数字的评估指标通常能很快的反应出我们模型的改进是否直接产生了收益，从而加速我们的算法改进过程。若在训练过程中，发现优化目标进一步深入，现有指标无法完全反应进一步的目标时，就需要重新选择评估指标了。

13.13 训练/验证/测试集的定义及划分

训练、验证、测试集在机器学习领域是非常重要的三个内容。三者共同组成了整个项目的性能的上限和走向。

训练集：用于模型训练的样本集合，样本占用量是最大的；

验证集：用于训练过程中的模型性能评价，跟着性能评价才能更好的调参；

测试集：用于最终模型的一次最终评价，直接反应了模型的性能。

在划分上，可以分两种情况：

1、在样本量有限的情况下，有时候会把验证集和测试集合并。实际中，若划分为三类，那么训练集：验证集：测试集=6:2:2；若是两类，则训练集：验证集=7:3。这里需要主要在数据量不够多的情况，验证集和测试集需要占的数据比例比较多，以充分了解模型的泛化性。

2、在海量样本的情况下，这种情况在目前深度学习中会比较常见。此时由于数据量巨大，我们不需要将过多的数据用于验证和测试集。例如拥有1百万样本时，我们按训练集：验证集：测试集=98:1:1的比例划分，1%的验证和1%的测试集都已经拥有了1万个样本。这已足够验证模型性能了。

此外，三个数据集的划分不是一次就可以的，若调试过程中发现，三者得到的性能评价差异很大时，可以重新划分以确定是数据集划分的问题导致还是由模型本身导致的。其次，若评价指标发生变化，而导致模型性能差异在三者上很大时，同样可重新划分确认排除数据问题，以方便进一步的优化。

13.14 什么是TOP5错误率

通常对于分类系统而言，系统会对某个未知样本进行所有已知样本的匹配，并给出该未知样本在每个已知类别上的概率。其中最大的概率就是系统系统判定最可能的一个类别。TOP5则就是在前五个最大概率的类别。TOP5错误率，即预测最可能的五类都不是该样本类别的错误率。

TOP5错误率通常会用于在类别数量很多或者细粒度类别的模型系统。典型地，例如著名的ImageNet ，其包含了1000个类别。通常就会采用TOP5错误率。

13.15 什么是泛化误差，如何理解方差和偏差

一般情况下，我们评价模型性能时都会使用泛化误差。泛化误差越低，模型性能越好。泛化误差可分解为方差、偏差和噪声三部分。这三部分中，噪声是个不可控因素，它的存在是算法一直无法解决的问题，很难约减，所以我们更多考虑的是方差和偏差。

方差和偏差在泛化误差上可做如下分解，假设我们的预测值为g(x)，真实值为f(x)，则均方误差为E((g(x)−f(x))2)。这里假设不考虑噪声，g来代表预测值，f代表真实值，g¯=E(g)代表算法的期望预测，则有如下表达：

有上述公式可知，方差描述是理论期望和预测值之间的关系，这里的理论期望通常是指所有适用于模型的各种不同分布类型的数据集；偏差描述为真实值和预测值之间的关系，这里的真实值通常指某一个特定分布的数据集合。

所以综上方差表现为模型在各类分布数据的适应能力，方差越大，说明数据分布越分散，而偏差则表现为在特定分布上的适应能力，偏差越大越偏离真实值。