神经网络中的Adadelta

Adadelta 是一种自适应学习率的优化算法，旨在解决 Adagrad 学习率急剧下降的问题，并且不需要手动设置初始学习率。它是由 Matthew D. Zeiler 在2012年的论文《ADADELTA: An Adaptive Learning Rate Method》中提出的。

Adadelta 的核心思想

Adadelta 通过维护一个运行时的梯度平方累积量来动态调整每个参数的学习率，但它引入了一个额外的机制来避免学习率过快衰减的问题。具体来说，Adadelta 不直接存储所有过去梯度的平方和，而是使用了一个窗口大小为 \( w \) 的衰减平均（类似于指数加权移动平均），这使得它可以更灵活地应对不同阶段的学习需求。

数学表达

Adadelta 的更新规则如下：

**计算梯度平方的衰减平均**：

\[ E[g^2]t = \rho E[g^2]{t-1} + (1-\rho)g_t^2 \]

这里，\( g_t \) 是当前时间步的梯度，\( E[g^2]_t \) 表示直到当前时间步为止梯度平方的衰减平均值，\( \rho \) 是一个衰减系数（通常设为0.9左右）。

**计算更新步长的衰减平均**：

\[ \Delta x_t = -\frac{RMS[\Delta x]_{t-1}}{RMS[g]_t} g_t \]

其中，

\[ RMS[\Delta x]_t = \sqrt{E[\Delta x^2]_t + \epsilon} \]

\[ RMS[g]_t = \sqrt{E[g^2]_t + \epsilon} \]

\( E[\Delta x^2]_t \) 是更新步长平方的衰减平均值，最初设为0。这里 \( \epsilon \) 是一个小常数（例如 \( 10^{-8} \)），用于防止除零错误。

**更新参数**：

\[ E[\Delta x^2]t = \rho E[\Delta x^2]{t-1} + (1-\rho)\Delta x_t^2 \]

\[ x_{t+1} = x_t + \Delta x_t \]

特点与优势

**无需预设学习率**：不同于其他需要手动设定初始学习率的方法，Adadelta 自动适应学习率。
**减少学习率衰减问题**：通过使用梯度平方和更新步长平方的衰减平均而非累积总和，Adadelta 能够更好地平衡早期和后期的学习率，从而缓解了 Adagrad 中出现的学习率过快下降的问题。
**适用于稀疏数据**：像 Adagrad 一样，Adadelta 对于处理稀疏特征的数据集也非常有效，因为它能够对不同参数应用不同的学习率。

实践中的应用

在实际应用中，Adadelta 提供了一种有效的方式来自动调整学习率，特别是在训练深度神经网络时。由于其不需要手动调节学习率，因此可以简化超参数调优过程。然而，尽管 Adadelta 有很多优点，但随着深度学习的发展，出现了更多先进的优化算法如 Adam 和 RMSprop，这些算法在许多情况下提供了更好的性能。