2023-简单点-机器学习中的数值计算问题

1. 上溢和下溢：

上溢：指数函数或对数函数的输入值过大，导致计算结果超出了计算机可以表示的最大值。例如，在softmax函数中，当输入的数值很大时，指数运算的结果可能非常大，导致上溢。

下溢：相反，当输入值过小，计算结果可能趋近于零，导致下溢。例如，在对数似然损失函数中，当预测概率接近零时，对数运算可能导致下溢。

解决方法：

举例：

病态条件通常出现在需要求解逆矩阵或进行特征值分解的场合。当矩阵的条件数很大时（即矩阵的最大特征值和最小特征值之比很大），矩阵求逆或特征值分解会变得不稳定，导致数值计算问题。

解决方法：

在深度神经网络中，梯度消失和爆炸问题是由于反向传播过程中梯度的连乘效应引起的。当网络层数较深时，梯度可能在传播过程中逐渐消失（变得非常小）或爆炸（变得非常大），导致模型参数更新困难或不稳定。

解决方法：

激活函数选择：使用ReLU、Leaky ReLU等非线性激活函数来缓解梯度消失问题。这些激活函数在输入为正时具有较大的梯度，有助于信息的传播。
批量归一化（Batch Normalization）：通过在每一层之后对激活输出进行归一化来减少内部协变量偏移，加速收敛速度，并缓解梯度消失或爆炸问题。
权重初始化：使用合适的权重初始化方法来初始化网络参数，如He初始化或Xavier初始化等。这些方法根据网络层的输入和输出单元数量来调整权重初始值，有助于减轻梯度消失或爆炸问题。
梯度剪裁：设置一个阈值，当梯度超过这个阈值时将其剪裁到阈值范围内。这可以防止梯度在训练过程中变得过大而导致模型参数更新过于剧烈。
残差连接（Residual Connections）：在深度神经网络中使用残差连接可以帮助信息在网络中更有效地传播，减轻梯度消失问题。残差连接通过跳过一层或多层连接将输入直接添加到更深层的输出中，有助于信息的传递和梯度的回流。
合适的学习率调度：使用合适的学习率调度策略（如学习率衰减、Adam优化器等）来调整学习率，使模型在训练过程中保持稳定。这有助于减轻梯度消失或爆炸问题并提高模型的性能。