深度学习Adam优化器核心概念全解析：参数，梯度，一阶动量，二阶动量

夫唯不争，故无尤也2025-11-05 8:11

目录

一、参数（weights）

二、梯度（gradients）

三、一阶动量（m，Momentum）

四、二阶动量（v，Variance）

[五、它们如何在优化中协作（以 Adam 为例）](#五、它们如何在优化中协作（以 Adam 为例）)

Adam优化器是深度学习框架Pytorch中常用的一个优化器，其主要包含了参数，梯度，一阶动量，二阶动量这四个部分。

一、参数（weights）

是什么： 模型中需要学习的核心数值，比如神经网络层的权重矩阵、偏置项等。
作用： 决定模型的行为。训练的目标就是不断更新这些参数，让模型输出更接近目标值。
例子：
python 复制代码
```
W = torch.nn.Linear(512, 512).weight
```
这就是一个权重矩阵（参数）。

二、梯度（gradients）

是什么： 参数对损失函数的偏导数，表示"如果我改动这个参数，损失会往哪个方向变"。
作用： 告诉优化器如何调整参数以减小损失。
生成方式： 通过反向传播（backpropagation）自动计算。

简单理解：

梯度是"路标"------告诉优化器应该往哪个方向走（减小损失）。

例子：

python 复制代码

loss.backward()
print(W.grad)  # 这里的grad就是梯度

三、一阶动量（m，Momentum）

是什么： 梯度的"指数滑动平均"（Exponential Moving Average）。
作用： 平滑梯度更新，让参数更新方向更稳定，不会抖动。
公式：

其中 ( g_t ) 是当前梯度，(\beta_1) 通常取 0.9。

直观理解：

想象优化器是一辆车，梯度是"当前推力"，而一阶动量是"惯性"。

你不希望车每一步都完全按梯度走，而是沿着长期平均方向继续前进。

四、二阶动量（v，Variance）

是什么： 梯度平方的指数滑动平均，衡量梯度的"变化幅度"。
作用： 控制学习率的自适应调整，让更新在不同维度上自动放缓或加速。
公式：

其中 (\beta_2) 通常取 0.999。

直观理解：

v 表示"梯度震荡的能量"。

如果某个参数的梯度变化太剧烈，优化器会自动降低它的学习率，避免发散。

五、它们如何在优化中协作（以 Adam 为例）

Adam 优化器结合了一阶和二阶动量，更新公式如下：

(\theta_t)：模型参数（weights）
(m_t)：一阶动量（平滑的方向）
(v_t)：二阶动量（平滑的幅度）
(\eta)：学习率

这意味着 Adam 更新时不仅考虑了当前梯度，还考虑了历史趋势 （m）和不确定性（v）。

上一篇：HTML炫酷烟花⑨

下一篇：Qt Quick Application&&Qt Quick Application (compat)

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 07Linux下V2Ray安装配置指南 08Spring Boot 4.0 发布总结：新特性、依赖变更与升级指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10Labelme从安装到标注：零基础完整指南