【深度学习】PyTorch深度学习笔记03-梯度下降算法

参考学习：

04.反向传播_哔哩哔哩_bilibili

刘二大人《PyTorch深度学习实践》笔记 + 作业_pytorch刘二大人笔记-CSDN博客

由上节课的结果可以得出，假设一个参数 w 搜索100个结果，那么两个参数 w1，w2 的搜索空间就变成100的平方了，10个参数就变成100的十次方了。

因此穷举法，找到最优点，很不合理。

1. 分治法（局部最优解）

横竖分成4份，找16个点。然后最小值在绿色框里面，再在绿色框横竖分成四份。。。

但是如果 cost function 不是光滑的呢？这种方法就有可能一直在一个地方搜索，找不出最优值。

2. 梯度下降算法（Gradient Descent）

计算cost曲线的梯度（导数）

如果导数>0，相当于 x+Δx 后函数值变大了，即 f(x+Δx) - f(x) > 0（Δx>0），说明往梯度的正方向就是向右，函数是在上升的，所以要往导数的负方向走，往左走，才能到最低点。

如果导数<0，说明随着 x 增加，函数值在减少，即 f(x+Δx) - f(x) < 0（Δx>0），说明x需要往右走。

所以如果想要cost值下降，就得取导数的负方向，负的导数的方向就是最小值的方向。

梯度下降算法其实也算是贪心算法，因此找到的是局部最优点。

那为什么深度学习还是普遍用梯度下降法呢？因为深度学习很少有局部最优点。

但是深度学习可能存在鞍点，梯度为0，使用梯度下降法可能无法走出鞍点。

具体计算（y = x * w）

代码（y = x * w）

python 复制代码

import numpy as np
import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def cost_fuction(xs, ys, w):
    cost = 0
    for x, y in zip(xs, ys):
        y_pred = forward(x, w)
        cost += (y_pred - y) ** 2
    return cost / len(xs)

def gradient(xs, ys, w):
    grad = 0
    for x, y in zip(xs, ys):
        grad += 2 * x * (x * w - y)
    return grad / len(xs)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
cost_val_list = []

for epoch in range(100):
    cost_val = cost_fuction(x_data, y_data, w)
    grad_val = gradient(x_data, y_data, w)
    w -= learning_rate * grad_val
    print('Epoch: ', epoch, 'w=', w, 'loss=', cost_val)
    epoch_list.append(epoch)
    cost_val_list.append(cost_val)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, cost_val_list)
plt.xlabel('epoch')
plt.ylabel('cost val')
plt.show()

有些时候下降函数不平滑，采用指数加权均值方法，使得曲线更加的平滑。

3. 随机梯度下降（Stochastic Gradient Descent）

不拿整个样本的cost function算，而是取一个样本的loss。

因为遇到鞍点的时候，如果 拿整个样本的cost function算**，就出不来鞍点。而** 取一个样本的loss**，就可能可以走出鞍点。**

梯度下降和随机梯度下降算梯度的区别

梯度下降在计算梯度时，xi和xi+1的梯度之间没有依赖关系，可以并行计算。
随机梯度下降在计算梯度时，xi+1的w 是根据 xi的w 的随机运算得出，导致无法并行计算，时间复杂度高。

梯度下降和随机梯度下降性能和时间对比

随机梯度下降可以找到最优点，可能不会在鞍点就停止，但是由于权重w无法并行计算导致时间复杂度高。

梯度下降的各个w可以并行计算。虽然时间复杂度低，但是可能找到的是鞍点。

因此，折中采用 mini-batch，批量的随机梯度下降。

代码（y = x * w）

python 复制代码

import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def loss(x, y, w):
    y_pred = forward(x, w)
    loss = (y - y_pred) ** 2
    return loss

def gradient(x, y, w):
    return 2 * x * (x * w - y)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
loss_list = []

for epoch in range(100):
    for x, y in zip(x_data, y_data):
        # 拿到一个样本就更新了
        grad = gradient(x, y, w)
        w = w - learning_rate * grad
        print('\tgrad: ', x, y, grad)
        l = loss(x, y, w)
    print('process: ', epoch, "w=", w, 'loss=', l)
    epoch_list.append(epoch)
    loss_list.append(l)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, loss_list)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

【深度学习】PyTorch深度学习笔记03-梯度下降算法

1. 分治法（局部最优解）

2. 梯度下降算法（Gradient Descent）

具体计算（y = x * w）

代码（y = x * w）

3. 随机梯度下降（Stochastic Gradient Descent）

梯度下降 和随机梯度下降算梯度的区别

梯度下降 和随机梯度下降性能和时间对比

代码（y = x * w）

梯度下降和随机梯度下降算梯度的区别

梯度下降和随机梯度下降性能和时间对比