深度学习系列--04.梯度下降以及其他优化器

import numpy as np

# 定义目标函数
def f(x):
    return x**2

# 定义目标函数的导数
def df(x):
    return 2 * x

# 初始化参数
x = 2.0
# 学习率
alpha = 0.1
# 最大迭代次数
max_iter = 100

# 梯度下降过程
for i in range(max_iter):
    # 计算梯度
    gradient = df(x)
    # 更新参数
    x = x - alpha * gradient
    # 输出当前迭代的结果
    print(f'Iteration {i+1}: x = {x}, f(x) = {f(x)}')

print(f'Optimal x: {x}, f(x) = {f(x)}')

4.不同类型的梯度下降

批量梯度下降（Batch Gradient Descent，BGD） ：在每次迭代中，使用整个训练数据集来计算梯度并更新参数。这种方法的优点是收敛稳定，能够保证收敛到全局最优解（对于凸函数），但计算开销大，尤其是当数据集较大时。
随机梯度下降（Stochastic Gradient Descent，SGD） ：在每次迭代中，随机选择一个 样本进行梯度计算和参数更新。这种方法的优点是计算速度快 ，能够快速跳出局部最优解，但收敛过程可能会比较震荡，不稳定。
小批量梯度下降（Mini-Batch Gradient Descent，MBGD） ：结合了批量梯度下降和随机梯度下降的优点，在每次迭代中，随机选择一小部分样本 （一个小批量）来计算梯度并更新参数。这种方法在计算效率和收敛稳定性之间取得了较好的平衡，是实际应用中最常用的方法。

5.优缺点

优点
- 通用性强：适用于各种类型的损失函数和模型，只要损失函数可导，就可以使用梯度下降算法进行优化。
- 易于实现：算法的原理和实现都比较简单，容易理解和掌握。
缺点
- 学习率选择困难 ：学习率 α的选择对算法的性能影响很大。如果学习率过大，算法可能会发散 ，无法收敛到最优解；如果学习率过小，算法的收敛速度会非常慢。
- 可能陷入局部最优解：对于非凸函数，梯度下降算法可能会陷入局部最优解，而无法找到全局最优解。不过，在实际应用中，通过一些技巧（如随机初始化、动量法等）可以在一定程度上缓解这个问题。

三.动量优化器（Momentum）

原理：动量优化器借鉴了物理中动量的概念，它在更新参数时不仅考虑当前的梯度，还会结合之前的梯度信息。在梯度下降的基础上，引入了一个动量项，用于累积之前的梯度。动量项可以帮助参数更新在相同方向上加速，减少在局部最优解附近的震荡，更快地越过局部极小值。

更新公式：

优点：收敛速度通常比普通的梯度下降更快，能有效减少震荡，更快地收敛到最优解。
缺点：需要额外的超参数（动量系数）进行调整。

适用场景

1.复杂地形的优化问题

具有高曲率或局部极小值的函数优化

在目标函数的曲面具有复杂的形状，存在许多局部极小值和鞍点时，普通的梯度下降算法容易陷入局部最优解 ，或者在鞍点附近停滞不前 。而动量优化器凭借动量项的累积效应，能够帮助算法更快地跳出局部极小值和鞍点区域。
例如，在训练深度神经网络时，损失函数的地形通常非常复杂。以图像识别任务中的卷积神经网络为例，其损失函数可能存在大量的局部极小值 。动量优化器可以让参数更新在遇到局部极小值时，利用之前累积的动量继续前进，从而更有可能找到全局最优解 或更好的局部最优解。

2.数据具有噪声的问题

随机梯度下降中的噪声影响缓解

在使用随机梯度下降（SGD） 处理大规模数据集时，每次迭代仅使用一个或一小部分样本计算梯度，这会导致梯度估计存在噪声，使得参数更新过程产生较大的震荡。动量优化器可以通过动量项平滑这些噪声的影响。
例如，在推荐系统 中，训练数据通常非常庞大且具有一定的噪声。当使用 SGD 进行模型训练时，梯度的波动会比较大。引入动量优化器后，动量项可以对梯度的波动进行**平均，**使得参数更新更加稳定，减少了噪声对训练过程的干扰，从而加快收敛速度。

3.目标函数变化缓慢的问题

加速收敛过程

当目标函数在某些方向上的变化非常缓慢时，普通的梯度下降算法收敛速度会变得很慢。动量优化器可以在这些方向上累积动量，加快参数在这些方向上的更新速度。
比如，在训练循环神经网络（RNN） 处理序列数据时，由于梯度消失 或梯度爆炸问题，目标函数在某些方向上的变化可能极其缓慢。动量优化器能够在这些方向上积累动量，使得参数更新更快地朝着最优解的方向前进，从而显著提高训练效率。

4.特征稀疏的问题

更好地处理稀疏梯度

在处理稀疏数据时，某些特征的梯度可能很少被更新。动量优化器可以记住之前的梯度信息，即使某个特征的梯度在当前迭代中为零，动量项也能利用之前的梯度推动参数更新。
例如，在自然语言处理中的文本分类任务中，使用词袋模型表示文本时，特征向量通常是非常稀疏的。动量优化器可以有效地处理这种稀疏梯度，让模型更好地学习到稀疏特征与目标之间的关系，提高模型的性能。

指定参数

1. `params`

说明：这是必须指定的参数，它表示需要优化的模型参数。在 PyTorch 里，通常通过 model.parameters() 来获取模型中所有可训练的参数。

2. lr（学习率）

说明：学习率 控制着每次参数更新的步长，是一个非常关键的参数。如果学习率设置过大，模型可能会在最优解附近震荡甚至发散；如果学习率设置过小，模型的收敛速度会变得非常缓慢。

3. `momentum`（动量系数）

说明：动量系数 决定了之前梯度信息在当前参数更新中所占的比重。合适的动量系数可以加速模型的收敛速度，减少震荡。一般来说，常见的动量系数取值在0.9左右。

4. `weight_decay`（权重衰减）

说明：权重衰减 是一种正则化 方法，用于防止模型过拟合。它通过在损失函数中添加一个正则化项，使得模型的参数在更新过程中逐渐变小。权重衰减系数通常设置为一个较小的正数，如 0.0001。

5. `nesterov`（是否使用 Nesterov 动量）

说明：Nesterov 动量是动量优化器的一种改进版本，它在计算梯度时会考虑到下一个位置的参数值，具有更好的收敛性能。可以通过将 nesterov 参数设置为 True 来启用 Nesterov 动量。

示例代码

python 复制代码

import torch
import torch.nn as nn

# 定义一个简单的线性模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.linear = nn.Linear(10, 1)

    def forward(self, x):
        return self.linear(x)

model = SimpleModel()
# 学习效率
learning_rate = 0.01
# 动量系数
momentum = 0.9
# 权重衰减
weight_decay = 0.0001
# 是否使用 Nesterov 动量
nesterov = True

# 创建优化器
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum,
                            weight_decay=weight_decay, nesterov=nesterov)

四.Adagrad（Adaptive Gradient Algorithm）

原理：Adagrad 是一种自适应学习率的优化器，它会根据每个参数的历史梯度信息自动调整学习率。对于那些经常更新的参数，学习率会逐渐减小；而对于不经常更新的参数，学习率会相对较大。这样可以让每个参数根据自身的特性进行更合理的更新。
更新公式

优点：无需手动调整学习率，能够自适应地为不同参数分配合适的学习率，在稀疏数据场景下表现良好。
缺点：随着迭代次数的增加，学习率会不断减小，可能导致后期收敛速度过慢，甚至提前停止更新。

五.Adadelta

原理：Adadelta 是对 Adagrad 的改进，它解决了 Adagrad 学习率单调递减的问题。Adadelta 不需要手动设置全局学习率，而是通过计算梯度的指数移动平均来动态调整学习率，使得学习率在训练过程中不会一直减小。
优点：无需设置全局学习率，避免了 Adagrad 学习率衰减过快的问题，在不同的数据集和模型上都有较好的表现。
缺点：需要调整的超参数相对较多，包括指数衰减率等。

六.RMSProp（Root Mean Square Propagation）

原理：RMSProp也是一种自适应学习率的优化器，它与 Adadelta 类似，通过计算梯度平方的指数移动平均来调整学习率。RMSProp 能够有效地缓解 Adagrad 学习率下降过快的问题，使得模型在训练过程中能够持续学习。
更新公式：

优点：自适应调整学习率，在处理非凸优化问题时表现较好，收敛速度较快。
缺点：仍然需要手动调整学习率和衰减率等超参数。

七.Adam（Adaptive Moment Estimation）

原理：Adam 结合了动量优化器和自适应学习率 的思想，它同时计算梯度的一阶矩估计 （均值）和二阶矩估计 （方差），并利用这些估计值来动态调整每个参数的学习率。Adam 具有较快的收敛速度和较好的稳定性。
更新公式

优点：收敛速度快，对不同类型的数据集和模型都有较好的适应性，在深度学习中被广泛使用。
缺点：可能会在某些情况下出现过拟合的问题，需要进行适当的正则化处理。

八.Nesterov 加速梯度（Nesterov Accelerated Gradient，NAG）

原理：NAG 是动量优化器的一种改进版本。它在计算梯度时，先根据动量项大致预估下一个位置的参数值，然后在这个预估位置计算梯度，这样可以让优化器更有前瞻性，提前知道梯度的变化趋势，从而更快地收敛。

更新公式:

优点：比传统的动量优化器收敛速度更快，尤其在处理一些复杂的优化问题时表现更优。
缺点：同样需要调整动量系数和学习率等超参数。