【深度学习】PyTorch深度学习笔记03-梯度下降算法

参考学习:

04.反向传播_哔哩哔哩_bilibili

刘二大人《PyTorch深度学习实践》笔记 + 作业_pytorch刘二大人笔记-CSDN博客


由上节课的结果可以得出,假设一个参数 w 搜索100个结果,那么两个参数 w1,w2 的搜索空间就变成100的平方了,10个参数就变成100的十次方了。

因此穷举法,找到最优点,很不合理。

1. 分治法(局部最优解)

横竖分成4份,找16个点。然后最小值在绿色框里面,再在绿色框横竖分成四份。。。

但是如果 cost function 不是光滑的呢?这种方法就有可能一直在一个地方搜索,找不出最优值。

2. 梯度下降算法(Gradient Descent)

计算cost曲线的梯度(导数)

如果导数>0,相当于 x+Δx 后函数值变大了,即 f(x+Δx) - f(x) > 0(Δx>0),说明往梯度的正方向就是向右,函数是在上升的,所以要往导数的负方向走,往左走,才能到最低点。

如果导数<0,说明随着 x 增加,函数值在减少,即 f(x+Δx) - f(x) < 0(Δx>0),说明x需要往右走。

所以如果想要cost值下降,就得取导数的负方向,负的导数的方向就是最小值的方向。

梯度下降算法其实也算是贪心算法,因此找到的是局部最优点。

那为什么深度学习还是普遍用梯度下降法呢?因为深度学习很少有局部最优点。

但是深度学习可能存在鞍点,梯度为0,使用梯度下降法可能无法走出鞍点。

具体计算(y = x * w)

代码(y = x * w)

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def cost_fuction(xs, ys, w):
    cost = 0
    for x, y in zip(xs, ys):
        y_pred = forward(x, w)
        cost += (y_pred - y) ** 2
    return cost / len(xs)

def gradient(xs, ys, w):
    grad = 0
    for x, y in zip(xs, ys):
        grad += 2 * x * (x * w - y)
    return grad / len(xs)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
cost_val_list = []

for epoch in range(100):
    cost_val = cost_fuction(x_data, y_data, w)
    grad_val = gradient(x_data, y_data, w)
    w -= learning_rate * grad_val
    print('Epoch: ', epoch, 'w=', w, 'loss=', cost_val)
    epoch_list.append(epoch)
    cost_val_list.append(cost_val)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, cost_val_list)
plt.xlabel('epoch')
plt.ylabel('cost val')
plt.show()

有些时候下降函数不平滑,采用指数加权均值方法,使得曲线更加的平滑。

3. 随机梯度下降(Stochastic Gradient Descent)

不拿整个样本的cost function算,而是取一个样本的loss。

因为遇到鞍点的时候,如果 拿整个样本的cost function算**,就出不来鞍点。而** 取一个样本的loss**,就可能可以走出鞍点。**

梯度下降随机梯度下降算梯度的区别

梯度下降 在计算 梯度 时,xi和xi+1的梯度之间没有依赖关系,可以并行计算。
随机梯度下降在计算 梯度 时,xi+1的w 是根据 xi的w 的随机运算得出,导致无法并行计算,时间复杂度高。

梯度下降随机梯度下降性能和时间对比

随机梯度下降可以找到最优点,可能不会在鞍点就停止,但是由于权重w无法并行计算导致时间复杂度高。

梯度下降的各个w可以并行计算。虽然时间复杂度低,但是可能找到的是鞍点。

因此,折中采用 mini-batch,批量的随机梯度下降。

代码(y = x * w)

python 复制代码
import matplotlib.pyplot as plt

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = 1.0
learning_rate = 0.01

def forward(x, w):
    return x * w

def loss(x, y, w):
    y_pred = forward(x, w)
    loss = (y - y_pred) ** 2
    return loss

def gradient(x, y, w):
    return 2 * x * (x * w - y)

print('predict (before training)', 4, forward(4, w))

epoch_list = []
loss_list = []

for epoch in range(100):
    for x, y in zip(x_data, y_data):
        # 拿到一个样本就更新了
        grad = gradient(x, y, w)
        w = w - learning_rate * grad
        print('\tgrad: ', x, y, grad)
        l = loss(x, y, w)
    print('process: ', epoch, "w=", w, 'loss=', l)
    epoch_list.append(epoch)
    loss_list.append(l)
print('predict (after training)', 4, forward(4, w))

plt.plot(epoch_list, loss_list)
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()
相关推荐
顾林海4 小时前
DeepSeek 技术原理详解
深度学习·llm·deepseek
Blossom.11811 小时前
基于深度学习的智能图像增强技术:原理、实现与应用
人工智能·python·深度学习·神经网络·机器学习·tensorflow·sklearn
nice-wyh11 小时前
三维重建之colmap+openmvs
人工智能·深度学习·3d
CoovallyAIHub12 小时前
云南电网实战:YOLOv8m改进模型攻克输电线路异物检测难题技术详解
深度学习·算法·计算机视觉
Leo Chaw12 小时前
27 - ASPP模块
深度学习·神经网络·cnn
小巫程序Demo日记12 小时前
Spark简介脑图
大数据·笔记·spark
Derek_Smart14 小时前
工业级YOLOv11实战:8倍效跃迁与全栈部署指南1.1
pytorch·ai编程·trae
z2014z20 小时前
第3章 C#编程概述 笔记
笔记·c#
AI大模型技术社1 天前
🔧 PyTorch高阶开发工具箱:自定义模块+损失函数+部署流水线完整实现
人工智能·pytorch
神经星星1 天前
从石英到铁电材料,哈佛大学提出等变机器学习框架,加速材料大规模电场模拟
人工智能·深度学习·机器学习