深度学习——权重初始化、评估指标、梯度消失和梯度爆炸

文章目录

🌺深度学习面试八股汇总🌺
权重初始化
- - 零初始化 (Zero Initialization)
  - 随机初始化 (Random Initialization)
  - [Xavier 初始化（Glorot 初始化）](#Xavier 初始化（Glorot 初始化）)
  - [He 初始化](#He 初始化)
  - [正交初始化（Orthogonal Initialization）](#正交初始化（Orthogonal Initialization）)
  - 预训练模型初始化
- 权重初始化方法总结
- 总结
评估指标
- [1. 分类问题](#1. 分类问题)
- [2. 回归问题](#2. 回归问题)
- 总结
梯度消失和梯度爆炸

🌺深度学习面试八股汇总🌺

权重初始化

权重初始化是影响模型训练速度和性能 的重要因素。合理的权重初始化可以帮助加快收敛，减少不稳定性。以下是几种常见的权重初始化方法及其解释：

零初始化 (Zero Initialization)

描述：将所有权重初始化为零。
优点：简单易实现。
缺点：所有神经元的输出相同，导致每个神经元在反向传播时更新相同的权重，无法有效学习 。此方法通常不适用于深度学习。

随机初始化 (Random Initialization)

描述：将权重随机初始化为小的随机值 （通常在一个小范围内）。
优点：避免了神经元输出相同的问题，允许不同神经元学习不同的特征。
缺点：选择不当的范围可能导致梯度消失或梯度爆炸问题。

Xavier 初始化（Glorot 初始化）

描述：适用于Sigmoid或Tanh 激活函数。权重根据输入和输出的数量进行初始化，通常使用正态分布或均匀分布。
- 计算公式：
优点：通过考虑输入和输出的规模，减少了层与层之间的激活值的方差，有助于更稳定的训练。

He 初始化

描述：专门为ReLU 激活函数设计的初始化方法，权重根据输入的数量 进行初始化。
- 计算公式：
优点：减少了在ReLU激活函数中由于零输入造成的 "死亡神经元"问题，适用于深度神经网络。

正交初始化（Orthogonal Initialization）

描述：

生成的权重矩阵 W 是正交矩阵 ，即满足 W T W = I W^T W = I WTW=I（单位矩阵）。正交矩阵具有特性：它的特征值的模为 1 ，这意味着在正交矩阵上的操作不会导致梯度的膨胀或收缩，因此适合深层网络或循环神经网络（RNN），有助于稳定梯度传播。

初始化过程：

首先生成一个随机矩阵，然后对该矩阵进行正交计算。
对于维数不相等的矩阵，进行截断，使矩阵能够符合输入和输出的维度。
正交计算获得正交矩阵方法：

奇异值分解（SVD），将其分解为 3 个矩阵，其中包含一个正交矩阵。用该正交矩阵初始化权重。

U 和 V 都是正交矩阵，通常选择 U 矩阵作为正交矩阵来初始化权重。

- QR 分解：对矩阵 W 进行 QR 分解，将其分解为一个正交矩阵 Q 和上三角矩阵 R。

优点：

梯度稳定性：它的特征值的模为 1，权重矩阵的特征值稳定，防止了梯度消失或梯度爆炸的情况，确保在前向传播和反向传播中信息能够更平稳地传递。，特别适用于深层网络和 RNN 等时间序列模型。

缺点：

计算复杂度较高：生成正交矩阵需要使用奇异值分解（SVD）【PCA用到】，这在高维度情况下计算开销较大，尤其在大规模神经网络中会导致初始化阶段的计算较慢。
适用范围有限：主要用于循环神经网络（RNN）等需要保持梯度稳定的结构，对于其他模型（如卷积神经网络 CNN），正交初始化的优势不明显。

适用场景：

主要用于 循环神经网络（RNN） 、长短时记忆网络（LSTM） 和 门控循环单元（GRU），这些网络需要在时间维度上进行长时间的梯度传播，因此正交初始化能够帮助缓解梯度消失或梯度爆炸的问题。
也可用于深层网络模型，如 深度前馈神经网络（DNN），特别是在训练过程不稳定的情况下，正交初始化可以帮助保持信号传播稳定。

预训练模型初始化

描述：使用在大规模数据集上预训练的模型的权重进行初始化，然后再进行微调。
优点：可以显著提高模型在小数据集上的表现 ，加快收敛速度。

权重初始化方法总结

初始化方法	描述	优点	缺点	适用场景
零初始化	将所有权重初始化为 0。	简单易实现。	导致所有神经元输出相同，无法有效学习特征，反向传播时无法更新不同的权重。	不适用于深度学习模型
随机初始化	将权重随机初始化为小的随机值。	避免神经元输出相同，允许不同神经元学习不同的特征。	不适当的范围可能导致梯度消失或梯度爆炸问题。	适用于大多数模型的简单初始化
Xavier 初始化	基于输入输出规模初始化权重，适合 Sigmoid/Tanh 激活函数。	平衡输入输出，减少激活值的方差变化，促进稳定训练。	对 ReLU 等非线性激活函数效果不理想。	适用于 Sigmoid 或 Tanh 激活函数的网络
He 初始化	为 ReLU 设计，考虑激活函数的非线性特性，权重按输入规模初始化。	减少 ReLU 激活中"死亡神经元"问题，适合深层网络。	主要针对 ReLU，其他激活函数可能效果不佳。	适用于 ReLU 或 Leaky ReLU 激活函数的网络
正交初始化	保证权重矩阵正交，特征值稳定，常用于循环神经网络（RNN）。	保持梯度稳定，防止梯度消失或爆炸，适合处理长序列。	需要奇异值分解（SVD），计算开销较大。	适用于 RNN、LSTM、GRU 等长序列处理的模型
预训练模型初始化	使用预训练模型的权重进行初始化，适用于迁移学习。	在小数据集上表现优秀，快速收敛，加速训练。	需要预训练权重，并且可能不适用于所有数据集或任务。	适用于迁移学习和微调任务，如图像分类、NLP 等

总结

零初始化 ：简单但不能用于深度学习。
随机初始化 ：常见的简单方法，但需合理选择范围以防梯度问题。
Xavier 初始化 ：适合 Sigmoid 和 Tanh 激活函数，能平衡输入输出的方差。
He 初始化 ：适合 ReLU 激活函数，解决 ReLU 的"死亡神经元"问题。
正交初始化：对**循环神经网络（RNN）**有效，确保梯度稳定，适合长序列处理。
预训练初始化 ：迁移学习的常用方法，适合在大数据集预训练的权重上进行微调。

评估指标

评估指标是用于量化模型性能的重要工具，帮助我们理解模型在处理数据时的准确性和有效性。以下是对常用评估指标的解释：

1. 分类问题

对于分类问题，评估指标主要用于衡量模型对不同类别的预测准确性 。混淆矩阵 （Confusion Matrix）是评估分类模型表现的常用工具。

混淆矩阵

	预测正类 (Predicted Positive)	预测负类 (Predicted Negative)
真实正类 (Actual Positive)	TP (True Positive)	FN (False Negative)
真实负类 (Actual Negative)	FP (False Positive)	TN (True Negative)

TP（True Positive，真正例）：模型正确地将实际为正类的样本预测为正类。
FP（False Positive，假正例）：模型错误地将实际为负类的样本预测为正类（也称为 Type I 错误）。
TN（True Negative，真负例）：模型正确地将实际为负类的样本预测为负类。
FN（False Negative，假负例）：模型错误地将实际为正类的样本预测为负类（也称为 Type II 错误）。

二分类问题的评估指标

多分类问题的评估指标

准确率 ：
- 同二分类

宏平均 (Macro Average)

计算方式：对每个类别的指标进行单独计算，然后取平均值。
适用场景：适合类别分布均衡 的情况，因为它不会受每个类别样本数量的影响，而是对每个类别的贡献一视同仁 。

微平均 (Micro Average)

计算方式：先累积每个类别的 TP、FP、TN、FN，然后计算评估指标。。
适用场景：类别分布不均衡的情况，因为它更倾向于以样本为中心，将所有类别的样本总数作为计算基础，因此更能反映数据集中主要类别的表现。

2. 回归问题

回归问题评估指标用于衡量模型预测值与实际值之间的差异 。

决定系数详细解释

总结

选择合适的评估指标是评估模型性能的关键步骤。分类问题的指标关注于类别预测的准确性 ，而回归问题的指标则关注于预测值与实际值的差异。根据具体任务和需求选择合适的指标，可以更好地评估和优化模型性能。

梯度消失和梯度爆炸

在深度学习中，梯度消失和梯度爆炸是训练深度神经网络时常见的问题，尤其是在涉及多个隐藏层的情况下。这两个问题直接影响模型的学习能力和训练效果。以下是对这两种现象的详细解释：

梯度消失 (Vanishing Gradient)

描述

梯度消失是指在反向传播 过程中，梯度值逐渐减小 ，接近于零 。（在反向传播时，靠近输出层的梯度会较大，但随着层数的增加，梯度在传递过程中会不断乘以小于1的数 ，最终导致靠近输入层的梯度趋近于零，影响网络的训练效果。）这导致在深层网络中，前面的层几乎不更新权重，模型难以学习。

产生原因

激活函数 ：使用Sigmoid或Tanh 等激活函数时，当输入值非常大或非常小时，这些函数的导数会接近于零 。因为这些激活函数的输出在极端值时平坦 ，导致梯度几乎消失。
层数增加 ：随着层数的增加，梯度通过多个层传递，每层的梯度可能都变得非常小，从而导致前面的层几乎没有更新。

影响

训练速度变慢：网络难以学习到有效的特征，导致收敛速度变慢。
模型性能下降：网络在面对复杂任务时表现不佳，无法达到预期效果。

解决方法

使用ReLU激活函数：使用 ReLU（Rectified Linear Unit）等非饱和激活函数，避免梯度趋近 0。ReLU 的梯度在正区间为常数 1，能够有效缓解梯度消失。
权重初始化方法：使用 Xavier 初始化、He 初始化等方法，使得权重初始值较好地分布在合理范围内，避免过大或过小的权重值引起梯度消失。
残差网络（ResNet）：通过引入残差连接（skip connections），使得梯度可以直接从后面层传递到前面层，从而缓解梯度消失问题。
归一化技术：使用批归一化（Batch Normalization）来保证每层的输入数据分布稳定，从而减小梯度消失的风险。

梯度爆炸 (Exploding Gradient)

描述

梯度爆炸是指在反向传播 过程中，随着网络层数的增加 ，梯度值不断增大，最终导致权重更新过大，模型无法收敛 。链式法则的累积效应，如果某些层的激活函数导数大于1，梯度在传递过程中会不断乘以大于1的数，那么这些梯度在层与层之间的传递过程中会被不断放大。

产生原因

权重初始化不当：如果权重初始化得过大，可能导致梯度在反向传播时迅速增大。
激活函数：某些激活函数（ReLU ）的导数可能在某些条件下变得非常大，尤其是在深层网络中，连续的乘法可能导致梯度指数级增长。
梯度累积效应/网络深度增加：反向传播中，每层的梯度通过链式法则相乘，如果每层的梯度大于 1，乘积效应会导致梯度迅速变大，尤其是深层网络。

影响

训练不稳定：模型的损失函数可能发散，导致无法有效训练。
权重溢出：过大的权重更新可能导致数值溢出，产生NaN（非数）值，导致训练中断。

解决方法

梯度裁剪（Gradient Clipping） ：在更新权重之前，对梯度进行裁剪，限制其最大值，从而避免梯度爆炸。
合理的权重初始化 ：使用适当的初始化方法，如Xavier或He初始化，防止初始化阶段的梯度过大。
选择合适的激活函数：避免使用会导致激活值过大的激活函数，如Sigmoid和Tanh，尤其是在深层网络中。
正则化 ：通过正则化（如 L2 正则化），可以对权重进行约束，防止其增长过大，从而避免梯度爆炸。
优化算法改进：一些优化算法如 Adam、RMSProp 能够根据梯度历史信息自适应调整学习率，这有助于缓解梯度爆炸。

总结

梯度消失和梯度爆炸是深度学习训练中的重要问题，影响模型的收敛性和性能。理解这两个现象及其产生原因，有助于采取相应的解决方案，提高深度学习模型的训练效果和稳定性。通过使用合适的激活函数、改进网络结构和优化训练过程，可以有效缓解这些问题。

Transformer中的优化方案

在 Transformer 模型中，梯度消失和梯度爆炸问题的解决方案涵盖了模型的多个层面，确保模型能够在深度学习训练中保持稳定的梯度传播。以下是主要的技术方法及其作用：

残差连接 ：通过为每层引入直接连接，确保梯度能够有效传播，缓解深层网络中的梯度消失问题。
层归一化：在每层的输入上进行归一化处理，避免输入分布波动过大，同时解决梯度消失和梯度爆炸问题。
缩放点积注意力 ：通过对点积结果进行缩放，防止点积值过大，避免在 softmax 计算时引发梯度爆炸。
权重初始化 ：通过 Xavier 或 He 初始化等策略，确保初始梯度处于合理范围，避免梯度在训练初期消失或爆炸。
学习率调度器：采用 warmup 和 decay 策略，通过动态调整学习率，防止初期梯度过小导致梯度消失，后期避免梯度过大引发梯度爆炸。
梯度裁剪：在梯度过大时，限制梯度的范数，确保训练过程中不会出现梯度爆炸。
正则化技术 ：通过 L2 正则化 限制权重增长和 Dropout 防止过拟合，间接防止梯度爆炸。

这些技术共同作用，使得 Transformer 能够在大规模训练和深层结构中有效应对梯度消失和梯度爆炸问题，从而确保其在自然语言处理、机器翻译等任务中的出色表现。