深度学习的数学原理（三）—— 反向传播

前情回顾：深度学习的数学原理（一）：多元线性回归深度学习的数学原理（二）：梯度下降优化

在前两篇文章中，我们掌握了线性回归和梯度下降的核心逻辑，但线性模型有个致命短板 ------ 只能处理 "直线能分开" 的简单问题。比如用重量和颜色区分苹果和橙子时，两类水果的分布可能是非线性的，线性回归根本 "分不明白"。

神经网络的出现就是为了突破这个限制，而反向传播则是让神经网络 "学会" 拟合非线性规律的核心算法。这篇文章会继续讲解讲清激活函数、交叉熵损失和反向传播的数学原理，彻底搞懂神经网络是怎么自我修正的。

神经网络能处理非线性问题，全靠激活函数。没有激活函数的神经网络，本质就是多层线性回归的叠加，依然解不了非线性问题。

线性回归的输出是 y = w1x1 + w2x2 + b，不管叠多少层，最终还是线性组合（比如 y = w3(w1x1 + b1) + b2 依然是线性的）。激活函数的作用，就是给线性输出加一个 "非线性变换"，让网络能拟合弯曲的决策边界。

我们以二分类场景（苹果 / 橙子）为例，重点讲 Sigmoid 函数：

图像如下：

输入 z 可以是任意实数（比如线性层输出的 -10 或 20），输出被压缩到 0~1 之间 ------ 刚好对应 "是苹果的概率"（0 = 肯定是橙子，1 = 肯定是苹果，或者说越接近0，越可能是橙子；越接近1，越可能是苹果）。
几何上看，Sigmoid 是一条 "S 型曲线"，把原本的直线输出 "掰弯" 了，让网络能学习非线性边界。

反向传播需要计算梯度，Sigmoid 的导数有个极简形式：

它的导数只和自身输出有关，计算起来特别快，这也是反向传播效率高的原因之一。

训练神经网络的核心是 "减少预测误差"，首先得定义 "误差怎么算"。分类问题不用线性回归的 MSE（均方误差），而是用交叉熵损失，因为它对分类问题的 "误差惩罚" 更合理。

假设我们有 m 个样本，y_i 是真实标签（1 = 苹果，0 = 橙子），ŷ_i 是网络预测的 "是苹果的概率"，交叉熵损失公式：

我们分两种情况看：

真实标签是苹果（y_i=1） ：公式只剩 -log(ŷ_i)。如果预测概率 ŷ_i=0.9（几乎猜对），损失≈0.1；如果 ŷ_i=0.1（严重错判），损失≈2.3------ 错得越离谱，损失越大，惩罚越重。
真实标签是橙子（y_i=0） ：公式只剩 -log(1-ŷ_i)。如果预测概率 ŷ_i=0.1（猜对），损失≈0.1；如果 ŷ_i=0.9（错判成苹果），损失≈2.3------ 同样是 "错得越狠，罚得越重"。

MSE 对分类问题的 "惩罚太温和"：比如把橙子错判成苹果（概率 0.9），MSE 的损失是 (0-0.9)²=0.81；而交叉熵损失是 -log(1-0.9)=2.3，能更快让网络意识到 "我错了，要修正"。当然，在本文的例子推导中，会继续使用MSE来展示求导过程及数值运算。

反向传播的本质是链式法则的实战应用：从输出层的损失出发，倒着计算每一层参数的梯度（参数该改多少），然后用梯度下降更新参数。

我们以 "输入层（n维向量X）→隐藏层（3 个神经元）→输出层" 的两层神经网络为例，一步步拆解。

先把数据 "往前传"，算出预测结果，才能算损失、倒推梯度：

如表所示