研究深度神经网络优化稳定性,证明在一定条件下梯度下降和随机梯度下降方法能有效控制损失函数假设 F ( x ; w ) F(x;w) F(x;w)是一个输出标量的深度神经网络,其中 x x x是输入, w w w表示权重。假设 F F F关于 w w w连续可微,并且对于训练数据 { x j , y j } j = 1 m \{x_{j},y_{j}\}_{j=1}^{m} {xj,yj}j=1m过参数化:即存在 w ∗ w^* w∗使得对所有 j j j满足 F ( x j ; w ∗ ) = y j F(x_{j};w^*)=y_{j} F(xj;w∗)=yj。为了研究训练神经网络时在 w