【机器学习】深度学习（DNN）

- [1. 神经网络结构](#1. 神经网络结构)
- [2. 训练步骤](#2. 训练步骤)
- [3. 反向传播](#3. 反向传播)
- [4. 为什么深，而不是宽（模块化）](#4. 为什么深，而不是宽（模块化）)
- [5. 初始化参数能否全为0？](#5. 初始化参数能否全为0？)

概念

反向传播是一种在做梯度下降时的微分方法。

方式

从后向前计算微分，因为前面的微分需要后面的结果。

两个部分

梯度： ∇ f w = ∂ l ∂ w = ∂ z ∂ w ⋅ ∂ l ∂ z \nabla f_w = \frac{\partial l}{\partial w} = \frac{\partial z}{\partial w} \cdot \frac{\partial l}{\partial z} ∇fw=∂w∂l=∂w∂z⋅∂z∂l
正向传播： ∂ z ∂ w \frac{\partial z}{\partial w} ∂w∂z ，即每一个神经元的输出。
反向传播：
∂ l ∂ z = ∂ a ∂ z ⋅ ∂ l ∂ a = σ ′ ( z ) $w 3 \cdot \partial l \partial z ' + w 4 \cdot \partial l \partial z ' '$ \frac{\partial l}{\partial z} = \frac{\partial a}{\partial z} \cdot \frac{\partial l}{\partial a} = \sigma'(z) \left $w_3 \\cdot \\frac{\\partial l}{\\partial z'} + w_4 \\cdot \\frac{\\partial l}{\\partial z''} \\right$ ∂z∂l=∂z∂a⋅∂a∂l=σ′(z) $w3\cdot\partialz'\partiall+w4\cdot\partialz''\partiall$

将正向传播和反向传播的结果相乘，得到L对w的偏微分。

与正向传播比较

全连接反馈网络

更深的网络：它的模型更加复杂，但这种复杂性是模块化的。

核心

好处

注

同一层的神经元是同构的，具有相同的输入和输出。如果初始参数设置为相同值，无论正向还是反向传播，它们的取值都会一样，导致学习过程无法打破对称性，最终训练结果会使同一层的参数都相同。
因此，应该在初始化时随机赋值，以打破这种对称性。