机器学习的精髓-梯度下降算法

wyw00002024-01-27 14:45

1. 梯度下降算法

梯度下降算法是一种优化算法，用于最小化函数的数值方法。它通过沿着函数梯度的反方向来更新参数，以逐步减小函数值。这一过程重复进行直到达到收敛条件。梯度下降算法有多种变体，包括批量梯度下降、随机梯度下降和小批量梯度下降。这些变体在处理大规模数据和优化不同类型的函数时具有不同的优势。

下面用一个例子来说明，使用梯度下降求极值的过程。

求y= x 2 x^2 x2 * sin(x)函数取得极小值时x的值。
梯度下降就是x当前值-y在x处的导数，再进行不断的迭代

y' = 2x*sin(x) + x 2 x^2 x2*cos(x) （y在x处的导数）

梯度下降x' = x - y'

为了使梯度变化不至于太快，还要再y'上乘以一个learning rate即学习率

那就变成了x' = x - 0.005 * y'，如下图：

learning rate = 0.5

x' = x - 0.5 * y'

当learning rate比较大时，x'变化的步长比较大，会导致它在最优解处有较大范围的波动，因此设置合适的learning rate是比较重要的，初学者一般设置learning rate=0.001，复杂的视具体情况进行调整。

个人理解梯度下降就是求极小值的过程，而在机器学习中就是使用梯度下降算法来求loss的最小值的，因此deep learning又被某些专家称之为Gradient programing，因此说梯度下降算法是机器学习的精髓那就一点不为过了。