梯度下降含义

沐泽__2026-05-06 11:59

标题：【深度学习优化】梯度下降：从原理到批量/随机/小批量梯度下降

摘要：

梯度下降是深度学习最基础的优化算法：沿着负梯度方向迭代更新参数，使损失函数逐步降低。本文通俗讲解原理、公式与三种常见变体。

一、核心思想

把损失 L(θ)L(\theta)L(θ) 看作高山，梯度是上升最快方向，负梯度是下山最快方向。反复沿负梯度走一步，直到走到谷底（损失最小）。

二、基本公式

θ=θ−η⋅∇L(θ) \theta = \theta - \eta \cdot \nabla L(\theta) θ=θ−η⋅∇L(θ)

θ\thetaθ：模型参数（权重/偏置）
η\etaη：学习率（步长）
∇L(θ)\nabla L(\theta)∇L(θ)：损失对参数的梯度

三、三种常见梯度下降

批量梯度下降 BGD：全样本算一次梯度，稳定但慢，内存开销大。
随机梯度下降 SGD：每次只用1个样本算梯度，快、有噪声，易跳出局部最优。
小批量梯度下降 Mini-batch SGD ：每次用一小批（如 32/64/128）样本，速度+稳定性平衡，工业界默认。

四、学习率的影响

太大：参数震荡不收敛
太小：学习极慢、易困在局部最优
常用策略：衰减学习率、自适应优化器（Adam、RMSprop）

小结：

梯度下降本质是迭代式沿负梯度最小化损失。BGD、SGD、Mini-batch 各有优劣，Mini-batch 是现在深度学习主流。

上一篇：RAG项目总结

下一篇：机器学习 | 感知机 | 尚硅谷学习

热门推荐

01GitHub 镜像站点 02【AI】2026 年具身智能模型和世界模型总结 03【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 05CC-Switch & Claude 基于 Linux 服务器安装使用指南 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07Codex 接入 DeepSeek API 完整配置文档 08DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 09几个好用的ip纯净度检测网站 10API Key 登录 Codex 也能用插件了，还支持会话删除和导出