梯度下降含义

标题:【深度学习优化】梯度下降:从原理到批量/随机/小批量梯度下降

摘要:

梯度下降是深度学习最基础的优化算法:沿着负梯度方向迭代更新参数,使损失函数逐步降低。本文通俗讲解原理、公式与三种常见变体。

一、核心思想

把损失 L(θ)L(\theta)L(θ) 看作高山,梯度是上升最快方向,负梯度是下山最快方向。反复沿负梯度走一步,直到走到谷底(损失最小)。

二、基本公式

θ=θ−η⋅∇L(θ) \theta = \theta - \eta \cdot \nabla L(\theta) θ=θ−η⋅∇L(θ)

  • θ\thetaθ:模型参数(权重/偏置)
  • η\etaη:学习率(步长)
  • ∇L(θ)\nabla L(\theta)∇L(θ):损失对参数的梯度

三、三种常见梯度下降

  1. 批量梯度下降 BGD:全样本算一次梯度,稳定但慢,内存开销大。
  2. 随机梯度下降 SGD:每次只用1个样本算梯度,快、有噪声,易跳出局部最优。
  3. 小批量梯度下降 Mini-batch SGD :每次用一小批(如 32/64/128)样本,速度+稳定性平衡,工业界默认。

四、学习率的影响

  • 太大:参数震荡不收敛
  • 太小:学习极慢、易困在局部最优
  • 常用策略:衰减学习率、自适应优化器(Adam、RMSprop)

小结:

梯度下降本质是迭代式沿负梯度最小化损失。BGD、SGD、Mini-batch 各有优劣,Mini-batch 是现在深度学习主流。

相关推荐
win4r2 小时前
🚀开发者必看!Codex /goal命令你真用对了吗?goal命令高级技巧保姆级教程,Plan模式+Spec-Driven+自研Skill,三大高级技巧组合让
openai·ai编程·vibecoding
鱼疯而行2 小时前
ai-driver-engine开源框架,完美实现Harness,轻松简单无忧
ai编程
码途漫谈3 小时前
Easy-Vibe高级开发篇阅读笔记(二)——CC教程之Claude Code MCP 完全指南
笔记·ai·开源·ai编程
唐叔在学习3 小时前
TodoList:我的待办助手
python·程序员·ai编程·待办应用
青山师3 小时前
【大模型提示词工程深度解析:从原理到工业级实践、实践案例】
大模型·prompt·aigc·ai编程·llama·claude·agi
yjfkpyu3 小时前
让 AI 不再按过期文档写代码:AgentLockDoc 开源了
人工智能·ai编程
lazy熊3 小时前
初学者如何快速入门学会 Claude Code?
人工智能·gpt·ai编程
流年似水~3 小时前
Copilot已死,Agent当立:2026年,程序员从“码字工“到“AI指挥官“的生存指南
人工智能·程序人生·语言模型·ai编程
Peter·Pan爱编程4 小时前
第六篇:VS Code + Continue 插件:开源爱好者的低成本高自由度方案
ide·开源·ai编程