梯度下降含义

标题:【深度学习优化】梯度下降:从原理到批量/随机/小批量梯度下降

摘要:

梯度下降是深度学习最基础的优化算法:沿着负梯度方向迭代更新参数,使损失函数逐步降低。本文通俗讲解原理、公式与三种常见变体。

一、核心思想

把损失 L(θ)L(\theta)L(θ) 看作高山,梯度是上升最快方向,负梯度是下山最快方向。反复沿负梯度走一步,直到走到谷底(损失最小)。

二、基本公式

θ=θ−η⋅∇L(θ) \theta = \theta - \eta \cdot \nabla L(\theta) θ=θ−η⋅∇L(θ)

  • θ\thetaθ:模型参数(权重/偏置)
  • η\etaη:学习率(步长)
  • ∇L(θ)\nabla L(\theta)∇L(θ):损失对参数的梯度

三、三种常见梯度下降

  1. 批量梯度下降 BGD:全样本算一次梯度,稳定但慢,内存开销大。
  2. 随机梯度下降 SGD:每次只用1个样本算梯度,快、有噪声,易跳出局部最优。
  3. 小批量梯度下降 Mini-batch SGD :每次用一小批(如 32/64/128)样本,速度+稳定性平衡,工业界默认。

四、学习率的影响

  • 太大:参数震荡不收敛
  • 太小:学习极慢、易困在局部最优
  • 常用策略:衰减学习率、自适应优化器(Adam、RMSprop)

小结:

梯度下降本质是迭代式沿负梯度最小化损失。BGD、SGD、Mini-batch 各有优劣,Mini-batch 是现在深度学习主流。

相关推荐
Shockang7 小时前
八万字长文深度解析:Codex 从 0 到 1
ai编程
Hyyy7 小时前
token是什么?为什么大模型会有上下文长度的限制
程序员·llm·ai编程
kyriewen11 小时前
AI 生成的代码能跑就行?这 5 个坑迟早炸
前端·javascript·ai编程
程序员辉哥11 小时前
Skill精通系列之GStack-最会做决策的虚拟团队
openai·ai编程·claude
PinkSun11 小时前
Spring AI ChatMemory踩坑实录:重启丢数据、Agent丢记忆、对话溢出
后端·ai编程
浩风祭月12 小时前
Cursor + Claude Code实战:从需求分析到测试提交的完整流程
ai编程·claude·cursor
didadida26212 小时前
Isshin AI Agent:LLM 工具路由架构
ai编程
孟健12 小时前
GLM-5.2能打了,但还不能替代GPT
ai编程
赫媒派15 小时前
Anthropic用Claude处理95%查询的实战
ai编程
kartjim15 小时前
我用 AI 一小时写了一个世界杯数据可视化平台|前端 VibeCoding 初体验
前端·程序员·ai编程