深度学习的数学原理(六)—— 梯度消失与激活函数在深度学习中,激活函数是连接线性变换与非线性表达的核心,其设计合理性直接决定模型能否深度训练、精准拟合复杂数据。而梯度消失(或梯度爆炸)是深度神经网络训练过程中最经典、最棘手的问题之一——当模型层数加深时,反向传播的梯度会逐渐趋近于0(梯度消失)或趋于无穷大(梯度爆炸),导致浅层参数无法更新、模型收敛停滞或训练不稳定。本文将遵循“现象发现→原理拆解→解决方案”的逻辑,从直观例子切入,深入剖析梯度消失的数学本质,同时结合激活函数的进阶演进,给出对应的解决思路及底层原理,彻底搞懂这一核心难点。