神经网络中的Adadelta

Adadelta 是一种自适应学习率的优化算法,旨在解决 Adagrad 学习率急剧下降的问题,并且不需要手动设置初始学习率。它是由 Matthew D. Zeiler 在2012年的论文《ADADELTA: An Adaptive Learning Rate Method》中提出的。

Adadelta 的核心思想

Adadelta 通过维护一个运行时的梯度平方累积量来动态调整每个参数的学习率,但它引入了一个额外的机制来避免学习率过快衰减的问题。具体来说,Adadelta 不直接存储所有过去梯度的平方和,而是使用了一个窗口大小为 \( w \) 的衰减平均(类似于指数加权移动平均),这使得它可以更灵活地应对不同阶段的学习需求。

数学表达

Adadelta 的更新规则如下:

  1. **计算梯度平方的衰减平均**:

\[ E[g^2]t = \rho E[g^2]{t-1} + (1-\rho)g_t^2 \]

这里,\( g_t \) 是当前时间步的梯度,\( E[g^2]_t \) 表示直到当前时间步为止梯度平方的衰减平均值,\( \rho \) 是一个衰减系数(通常设为0.9左右)。

  1. **计算更新步长的衰减平均**:

\[ \Delta x_t = -\frac{RMS[\Delta x]_{t-1}}{RMS[g]_t} g_t \]

其中,

\[ RMS[\Delta x]_t = \sqrt{E[\Delta x^2]_t + \epsilon} \]

\[ RMS[g]_t = \sqrt{E[g^2]_t + \epsilon} \]

\( E[\Delta x^2]_t \) 是更新步长平方的衰减平均值,最初设为0。这里 \( \epsilon \) 是一个小常数(例如 \( 10^{-8} \)),用于防止除零错误。

  1. **更新参数**:

\[ E[\Delta x^2]t = \rho E[\Delta x^2]{t-1} + (1-\rho)\Delta x_t^2 \]

\[ x_{t+1} = x_t + \Delta x_t \]

特点与优势

  • **无需预设学习率**:不同于其他需要手动设定初始学习率的方法,Adadelta 自动适应学习率。

  • **减少学习率衰减问题**:通过使用梯度平方和更新步长平方的衰减平均而非累积总和,Adadelta 能够更好地平衡早期和后期的学习率,从而缓解了 Adagrad 中出现的学习率过快下降的问题。

  • **适用于稀疏数据**:像 Adagrad 一样,Adadelta 对于处理稀疏特征的数据集也非常有效,因为它能够对不同参数应用不同的学习率。

实践中的应用

在实际应用中,Adadelta 提供了一种有效的方式来自动调整学习率,特别是在训练深度神经网络时。由于其不需要手动调节学习率,因此可以简化超参数调优过程。然而,尽管 Adadelta 有很多优点,但随着深度学习的发展,出现了更多先进的优化算法如 Adam 和 RMSprop,这些算法在许多情况下提供了更好的性能。

相关推荐
数新网络1 小时前
The Life of a Read/Write Query for Apache Iceberg Tables
人工智能·apache·知识图谱
Yangy_Jiaojiao1 小时前
开源视觉-语言-动作(VLA)机器人项目全景图(截至 2025 年)
人工智能·机器人
gorgeous(๑>؂<๑)2 小时前
【ICLR26匿名投稿】OneTrackerV2:统一多模态目标跟踪的“通才”模型
人工智能·机器学习·计算机视觉·目标跟踪
坠星不坠2 小时前
pycharm如何导入ai大语言模型的api-key
人工智能·语言模型·自然语言处理
周杰伦_Jay2 小时前
【智能体(Agent)技术深度解析】从架构到实现细节,核心是实现“感知环境→处理信息→决策行动→影响环境”的闭环
人工智能·机器学习·微服务·架构·golang·数据挖掘
王哈哈^_^2 小时前
【完整源码+数据集】课堂行为数据集,yolo课堂行为检测数据集 2090 张,学生课堂行为识别数据集,目标检测课堂行为识别系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·视觉检测·毕业设计
Elastic 中国社区官方博客3 小时前
Observability:适用于 PHP 的 OpenTelemetry:EDOT PHP 加入 OpenTelemetry 项目
大数据·开发语言·人工智能·elasticsearch·搜索引擎·全文检索·php
ytttr8733 小时前
Landweber迭代算法用于一维、二维图像重建
人工智能·算法·机器学习
feifeigo1233 小时前
Matlab编写压缩感知重建算法集
人工智能·算法·matlab
hongjianMa4 小时前
【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
论文阅读·python·深度学习·机器学习·prompt·推荐系统