梯度下降含义

标题:【深度学习优化】梯度下降:从原理到批量/随机/小批量梯度下降

摘要:

梯度下降是深度学习最基础的优化算法:沿着负梯度方向迭代更新参数,使损失函数逐步降低。本文通俗讲解原理、公式与三种常见变体。

一、核心思想

把损失 L(θ)L(\theta)L(θ) 看作高山,梯度是上升最快方向,负梯度是下山最快方向。反复沿负梯度走一步,直到走到谷底(损失最小)。

二、基本公式

θ=θ−η⋅∇L(θ) \theta = \theta - \eta \cdot \nabla L(\theta) θ=θ−η⋅∇L(θ)

  • θ\thetaθ:模型参数(权重/偏置)
  • η\etaη:学习率(步长)
  • ∇L(θ)\nabla L(\theta)∇L(θ):损失对参数的梯度

三、三种常见梯度下降

  1. 批量梯度下降 BGD:全样本算一次梯度,稳定但慢,内存开销大。
  2. 随机梯度下降 SGD:每次只用1个样本算梯度,快、有噪声,易跳出局部最优。
  3. 小批量梯度下降 Mini-batch SGD :每次用一小批(如 32/64/128)样本,速度+稳定性平衡,工业界默认。

四、学习率的影响

  • 太大:参数震荡不收敛
  • 太小:学习极慢、易困在局部最优
  • 常用策略:衰减学习率、自适应优化器(Adam、RMSprop)

小结:

梯度下降本质是迭代式沿负梯度最小化损失。BGD、SGD、Mini-batch 各有优劣,Mini-batch 是现在深度学习主流。

相关推荐
陆业聪1 小时前
WebView代理方案实现:拦截请求、注入资源与离线包架构
人工智能·ai编程
kyriewen2 小时前
AI生成代码快如闪电,但我修了三个小时——它到底帮了谁?
前端·javascript·ai编程
颜进强2 小时前
09-不要只让 AI 进入 Plan 模式,要先给 AI 一套工程制度
ai编程
miaowmiaow3 小时前
PSD2Code 近期更新与深度解析:从设计稿到生产级代码的完整技术栈
前端·人工智能·ai编程
lifallen3 小时前
第一章 Agent 为什么会出现
人工智能·ai·ai编程
Holman4 小时前
Java 项目中的 Claude Code 提效场景 Top 10
ai编程
亦暖筑序4 小时前
单模型成本高、风险大?Spring AI多模型路由实战:成本降70%,可用性更稳
java·后端·ai编程
一点一木4 小时前
🚀 2026 年 5 月 GitHub 十大热门项目排行榜 🔥
人工智能·github·ai编程
孟健4 小时前
5月创业复盘:我开始补最短的板
ai编程
浩风祭月5 小时前
受够了每次切分支都要重装依赖:一份 Git 工作流优化指南
前端·ai编程