推导神经网络前向后向传播算法的优化迭代公式

[1. 定义符号](#1. 定义符号)

[2. 前向传播 (Forward Propagation)](#2. 前向传播 (Forward Propagation))

[3. 后向传播 (Backward Propagation)](#3. 后向传播 (Backward Propagation))

[3.1 关键：计算误差项](#3.1 关键：计算误差项)

[4. 优化迭代公式 (Optimization Algorithms)](#4. 优化迭代公式 (Optimization Algorithms))

[4.1 随机梯度下降 (SGD)](#4.1 随机梯度下降 (SGD))

[4.2 Momentum 动量法](#4.2 Momentum 动量法)

[4.3 Adam (Adaptive Moment Estimation)](#4.3 Adam (Adaptive Moment Estimation))

在推导之前，首先定义网络中使用的符号：

前向传播的目标是根据输入计算出每一层的输出，直到最终得到预测值。对于网络中的第 $l$ 层，其计算过程如下：

这个过程从开始，重复计算直到最后一层，得到最终的预测结果。

后向传播的核心是利用链式法则 (Chain Rule)，从最后一层开始逐层反向计算损失函数对每一层参数 (和 ) 的梯度（偏导数）。

我们定义误差项为损失函数对第层线性输入的偏导数：

计算出梯度后，使用优化算法来更新网络的权重和偏置，以最小化损失函数。

这是最基础的优化算法。更新规则是在梯度的反方向上调整参数：

动量法引入了一个速度向量，用于累积历史梯度，从而加速收敛并减少震荡。

Adam 结合了 Momentum 和 RMSProp 的思想。

初始化 ：一阶矩估计和二阶矩估计为 0，迭代次数。
在每次迭代中 ()：
1. 计算一阶矩估计 (Momentum):
2. 计算二阶矩估计 (RMSProp):
3. 偏差修正 (Bias Correction):
4. 更新参数:
其中 (通常为 0.9), (通常为 0.999) 是超参数，是一个极小值（如）以防止分母为零。