【NLP 10、优化器 ① SGD 随机梯度下降优化器】

目录

一、定义

二、什么是梯度下降

三、SGD的工作原理

四、SGD的优化公式(更新规则)

五、SGD的优缺点

优点

缺点

六、如何选择学习率

七、使用SGD优化器训练一个简单的线性回归模型


祝你

随时攥紧偶然

永远拥有瞬间

------ 24.12.6

一、定义

随机梯度下降(Stochastic Gradient Descent,SGD) 是一种常用的优化算法,用于训练机器学习模型特别是神经网络。它通过迭代地更新模型参数来最小化损失函数


二、什么是梯度下降

梯度下降是一种优化算法,通过计算损失函数对模型参数的梯度(导数),然后沿着梯度的反方向更新参数,以使损失函数逐渐减小

SGD随机梯度下降优化器: 在每一步更新参数时,仅使用一个样本的梯度


三、SGD的工作原理

1.随机选择一个样本(或一个小批量样本)

2.计算该样本(或小批量样本)的梯度

3.按照梯度的反方向更新模型参数

4.重复上述步骤,直到满足停止条件(如达到最大迭代次数或损失函数收敛)


四、SGD的优化公式(更新规则)

假设我们有一个损失函数 L(θ),其中 θ是模型参数。SGD的更新规则为:

其中:

  • θt 是第 t 次迭代时的参数

  • η是学习率,控制每次更新的步长

  • ∇L(θt​)是损失函数在θt处的梯度


五、SGD的优缺点

优点

  • 计算效率高,因为每次只使用一个样本或小批量样本,减少了计算量

  • 可以快速收敛到损失函数的最小值,尤其是在损失函数不平整时

  • 有助于逃避免局部最小值

缺点

  • 由于噪声较大,损失函数的下降过程可能不稳定

  • 需要仔细选择学习率,否则可能发散或收敛过慢


六、如何选择学习率

  • 固定学习率 :在整个训练过程中使用一个固定的学习率

  • 学习率衰减 :随着训练的进行,逐渐降低学习率

  • 自适应学习率 :如Adam、RMSprop等优化器,可以自动调整学习率


七、使用SGD优化器训练一个简单的线性回归模型

**Learned parameters:**优化后的参数

python 复制代码
import numpy as np

# 使用SGD训练一个简单的线性回归模型

# 生成一些伪数据
np.random.seed(0)
X = np.random.rand(100, 1)
y = 2 + 3 * X + np.random.rand(100, 1)

# 初始化参数
theta = np.random.randn(2, 1)
learning_rate = 0.01
iterations = 1000

# 添加偏置项
X_b = np.c_[np.ones((100, 1)), X]

for i in range(iterations):
    # 随机选择一个样本
    idx = np.random.randint(0, 100)
    xi = X_b[idx:idx + 1]
    yi = y[idx:idx + 1]

    # 计算预测值
    predictions = np.dot(xi, theta)

    # 计算梯度
    gradient = 2 * xi.T.dot(predictions - yi)

    # 更新参数
    theta -= learning_rate * gradient

print("Learned parameters:")
print(theta)
相关推荐
小鸡吃米…5 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫6 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维6 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS6 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd6 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟7 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然7 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~7 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1