神经网络中的Adam

Adam(Adaptive Moment Estimation)是一种广泛使用的优化算法,结合了RMSprop和动量(Momentum)的优点。它通过计算梯度的一阶矩估计(mean)和二阶矩估计(uncentered variance),为每个参数提供自适应学习率。Adam由Diederik P. Kingma和Jimmy Ba在2014年的论文《Adam: A Method for Stochastic Optimization》中提出。

Adam的核心思想

Adam的主要特点是:

  • **自适应学习率**:根据参数的梯度一阶矩(均值)和二阶矩(方差)自动调整学习率。

  • **动量**:引入类似于传统动量的概念来加速SGD在相关方向上的进展,并抑制震荡。

  • **偏置校正**:对初期的矩估计进行偏差校正,以应对开始阶段估计不准确的问题。

更新规则

对于时间步 \( t \),某个参数 \( w \) 的更新过程如下:

  1. **计算梯度**:

\ g_t = \\nabla_{w} J(w_{t-1}) \\

这里,\( g_t \) 是损失函数 \( J \) 对参数 \( w \) 在时间步 \( t \) 的梯度。

  1. **计算一阶矩估计(均值)**:

\ m_t = \\beta_1 m_{t-1} + (1 - \\beta_1)g_t \\

  1. **计算二阶矩估计(未中心化的方差)**:

\ v_t = \\beta_2 v_{t-1} + (1 - \\beta_2)g_t\^2 \\

其中,\( \beta_1 \) 和 \( \beta_2 \) 分别是用于控制一阶矩和二阶矩估计的指数衰减率,默认情况下分别设置为 0.9 和 0.999。

  1. **偏差校正**:

\ \\hat{m}_t = \\frac{m_t}{1-\\beta_1\^t} \\

\ \\hat{v}_t = \\frac{v_t}{1-\\beta_2\^t} \\

这一步是为了修正初始时刻的偏差,因为在训练初期,\( m_t \) 和 \( v_t \) 可能会偏向零。

  1. **参数更新**:

\ w_t = w_{t-1} - \\frac{\\eta}{\\sqrt{\\hat{v}_t} + \\epsilon} \\hat{m}_t \\

其中,\( \eta \) 是学习率,\( \epsilon \) 是一个很小的常数(例如 \( 10^{-8} \)),用于确保数值稳定性,避免除以零的情况。

特点与优势

  • **高效性**:Adam通常比其他自适应学习率方法如Adagrad或RMSprop更快收敛。

  • **适用于非平稳目标**:由于其使用了移动平均,因此更适合处理随着时间变化的目标函数。

  • **不需要手动调节学习率**:相比标准SGD,Adam减少了对超参数(特别是学习率)精细调节的需求。

实践中的应用

Adam因其良好的性能和易用性,在深度学习领域得到了广泛应用。无论是图像识别、自然语言处理还是强化学习等领域,Adam都是首选的优化器之一。下面是一个使用TensorFlow/Keras实现Adam的例子:

```python

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense

创建模型

model = Sequential(Dense(1, input_shape=(8,)))

使用Adam优化器

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

编译模型

model.compile(optimizer=optimizer, loss='mse')

假设我们有一些数据x_train和y_train

model.fit(x_train, y_train, epochs=10)

```

在这个例子中,`learning_rate` 参数可以调整以适应特定任务的需求,但默认值通常已经足够有效。此外,Keras的Adam优化器还允许进一步定制化,比如调整 \( \beta_1 \) 和 \( \beta_2 \) 的值等。

相关推荐
2501_911067665 小时前
乡村振兴 + 零碳民生稿:叁仟光伏智慧灯杆,点亮杭州共富乡村绿色数字路
人工智能·5g·重构·生活·智慧城市
linzᅟᅠ6 小时前
README
人工智能·python
小猴子下山1236 小时前
2026年无锡细胞存储市场格局观察:四家企业的传承脉络与业务分野
大数据·人工智能·精选
Database_Cool_6 小时前
数据库慢查询优化首选方案:阿里云 RDS 性能洞察+自动诊断
数据库·人工智能·阿里云
2601_951659996 小时前
YOLOv11 改进 - 主干网络 ConvNeXtV2全卷积掩码自编码器网络:轻量级纯卷积架构破解特征坍塌难题,提升特征多样性
深度学习·yolo·计算机视觉
北邮刘老师6 小时前
国标配套开源实现再升级!AIP智能体互联开源项目v2.1.0正式发布
人工智能·开源·大模型·智能体·智能体互联网
zhoupenghui1686 小时前
【AI大模型应用开发】【项目实战】13.RAG智慧问答项目-(一)项目介绍&项目架构&项目环境配置
人工智能·docker·ai·milvus·rag·attu·rag智慧问答项目
神奇小汤圆6 小时前
AI Coding 不只靠 Prompt:Agent 工程闭环如何接入 DevOps
人工智能
hongmai6668886 小时前
ESP32-S2-MINI-2U-N4R2:一款为灵活部署而生的Wi-Fi MCU模组
人工智能·单片机·嵌入式硬件·物联网·智能家居
神奇小汤圆6 小时前
AI Agent 替你写代码没问题,但这 3 类后端任务让它当场翻车
人工智能