《深度学习》—— 神经网络模型中的损失函数及正则化惩罚和梯度下降

前言

正则化是一种减少过拟合的技术 ，它通过向损失函数中添加一个正则化项来实现。正则化项通常是对模型参数（如权重）的某种形式的惩罚，旨在限制模型的复杂度，从而提高其泛化能力。常见的正则化方法包括：
- L1正则化：向损失函数中添加权重绝对值的和作为惩罚项。L1正则化有助于产生稀疏的权重矩阵，即许多权重为零，这有助于模型的解释性，并可能减少计算量。
- 公式如下:
- L2正则化：向损失函数中添加权重平方和的一半作为惩罚项。L2正则化有助于减小权重的值，从而防止模型过于复杂，避免过拟合。
- 公式如下：
  - 各参数的含义与L1正则化中的相同
下面通过一个实例来说明为什么要增加正则化惩罚：
- w1和w2与输入的乘积都为1，但w2 与每一个输入数据进行计算后都有数据，使得w2会学习到每一个特征信息。
- 而w1只和第1个输入信息有关系，容易出现过拟合现象，因此w2的效果会比w1 好
- 因此需要引入正则化惩罚项来避免第一种权重值的情况

损失函数具有良好的梯度信息，使得优化算法（如梯度下降）能够有效地更新模型参数
在神经网络中，我们希望通过调整网络参数（如权重和偏置）来降低损失函数的值。梯度下降算法通过计算损失函数关于网络参数的梯度，并沿着梯度的反方向更新参数，从而逐步逼近损失函数的最小值。
具体步骤如下：
- 1.计算梯度：首先，需要计算损失函数关于每个参数的梯度。这通常通过反向传播算法（Backpropagation）来实现，该算法从网络的输出层开始，逐层计算梯度，直到到达输入层。
- 2.更新参数 ：然后，使用计算得到的梯度来更新网络的参数。更新规则通常遵循以下形式：
- 3.重复迭代：不断重复上述步骤，直到满足某个停止条件（如达到最大迭代次数、损失函数值低于某个阈值或梯度接近于零）
用下图来解释梯度下降的过程：
- 参数取不同的初始值，可能会得到不同的最小损失值，但是每个初始的参数只是得到了此模型局部的最小损失值
- 就好像当你处在一个谷底时，只会认为此时的位置是最低的，但并不知道其他的低谷处还有更低的位置
- 梯度下降就是通过不断地寻找梯度方向和计算得到不同的损失值，直到找到最优和满足条件的值为止