反向传播算法——矩阵形式递推公式——ReLU传递函数

总结反向传播算法。

来源于https://udlbook.github.io/udlbook/,我不明白初始不从 x 0 \boldsymbol{x}_0 x0开始,而是从 z 0 \boldsymbol{z}_0 z0开始,不知道怎么想的。


考虑一个深度神经网络 g x i , ϕ g\\boldsymbol{x}_i, \\boldsymbol{\\phi} gxi,ϕ,它接受输入 x i \boldsymbol{x}i xi,具有 N N N个隐藏层和 ReLU 激活函数,并且有单独的损失项 L i = l o s s g \[ x i , ϕ , y i ] L_i = {\rm loss}g\[\\boldsymbol{x}_i, \\boldsymbol{\\phi}, \boldsymbol{y}i] Li=lossg\[xi,ϕ,yi]。反向传播的目标是计算关于偏差 b ι \boldsymbol{b}\iota bι和权重 W ι \boldsymbol{W}\iota Wι的导数 ∂ L i ∂ b ι \frac{\partial L_i}{\partial \boldsymbol{b}\iota} ∂bι∂Li和 ∂ L i ∂ W ι \frac{\partial L_i}{\partial \boldsymbol{W}\iota} ∂Wι∂Li。

前向传递: 计算并存储以下量:

z 0 = b 0 + W 0 x i x ι = f z ι − 1 ι ∈ { 1 , 2 , ... , M } z ι = b ι + W ι x ι . ι ∈ { 1 , 2 , ... , M } \begin{aligned} \boldsymbol{z}0 &= \boldsymbol{b}0 + \boldsymbol{W}0 \boldsymbol{x}i \\ \boldsymbol{x}\iota &=f\\boldsymbol{z}_{\\iota-1} & \iota \in \{1, 2, \ldots, M\} \\ \boldsymbol{z}\iota &= \boldsymbol{b}\iota + \boldsymbol{W}\iota \boldsymbol{x}_\iota. & \iota \in \{1, 2, \ldots, M\} \end{aligned} z0xιzι=b0+W0xi=fzι−1=bι+Wιxι.ι∈{1,2,...,M}ι∈{1,2,...,M}

反向传递: 从损失函数 L i L_i Li关于网络输出 z M \boldsymbol{z}_M zM的导数 ∂ L i ∂ z M \frac{\partial L_i}{\partial \boldsymbol{z}_M} ∂zM∂Li开始,并在网络中反向工作:

∂ L i ∂ b ι = ∂ L i ∂ z ι ι ∈ { M , M − 1 , ... , 1 } ∂ L i ∂ W ι = ∂ L i ∂ z ι x ι T ι ∈ { M , M − 1 , ... , 1 } ∂ L i ∂ z ι − 1 = I z ι − 1 \> 0 ⊙ ( W ι T ∂ L i ∂ z ι ) , ι ∈ { M , M − 1 , ... , 1 } \begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}\iota} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{W}\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}\iota} \boldsymbol{x}\iota^{\mathsf T} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{z}{\iota-1}} &= \mathbb{I}\\boldsymbol{z}_{\\iota-1} \> 0 \odot \left( \boldsymbol{W}\iota^{\mathsf T} \frac{\partial L_i}{\partial \boldsymbol{z}\iota} \right), & \iota \in \{M, M-1, \ldots, 1\} \end{aligned} ∂bι∂Li∂Wι∂Li∂zι−1∂Li=∂zι∂Li=∂zι∂LixιT=Izι−1\>0⊙(WιT∂zι∂Li),ι∈{M,M−1,...,1}ι∈{M,M−1,...,1}ι∈{M,M−1,...,1}

其中 ⊙ \odot ⊙表示逐点乘法,而 I z ι − 1 \> 0 \mathbb{I}\\boldsymbol{z}_{\\iota-1} \> 0 Izι−1\>0是一个向量,其中在 z ι − 1 \boldsymbol{z}_{\iota-1} zι−1大于零的位置包含一,在其他位置包含零。

最后,计算关于第一组偏差和权重的导数:

∂ L i ∂ b 0 = ∂ L i ∂ z 0 ∂ L i ∂ W 0 = ∂ L i ∂ z 0 x i T . \begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \boldsymbol{x}_i^{\mathsf T}. \end{aligned} ∂b0∂Li∂W0∂Li=∂z0∂Li=∂z0∂LixiT.

为批次中的每个训练样本计算这些导数,并将它们相加以获取用于 SGD 更新的梯度。

请注意,反向传播算法非常高效;前向和反向传递中最耗计算的步骤是矩阵乘法(分别由 W \boldsymbol{W} W和 W T \boldsymbol{W}^{\mathsf T} WT进行),这只需要加法和乘法。然而,它不是内存高效的;前向传递中的中间值必须全部存储,这可能会限制可以训练的模型的大小。

相关推荐
2401_872418782 小时前
算法入门:数据结构-堆
数据结构·算法
xwz小王子3 小时前
手术机器人登上Science Robotics:2毫米纤细手臂,从3厘米切口完成腰椎神经减压
算法·机器人
黎阳之光4 小时前
视频孪生智护供水生命线:黎阳之光赋能医疗与园区水务高质量升级
运维·物联网·算法·安全·数字孪生
Black蜡笔小新5 小时前
自动化AI算法训练服务器DLTM制造业AI质检工作站助力制造业实现AI智检
人工智能·算法·自动化
嵌入式小能手5 小时前
飞凌嵌入式ElfBoard-进程间的通信之命名管道
linux·服务器·算法
啦哈拉哈5 小时前
Leetcode题解记录-hot100(81-100)
算法·leetcode·职场和发展
csdn_aspnet5 小时前
Java 霍尔分区算法(Hoare‘s Partition Algorithm)
java·开发语言·算法
诸葛务农5 小时前
道路行驶条件下电动汽车永磁电机的有效使用寿命及永磁体的失效和回收再利用(下)
java·开发语言·算法
snow@li6 小时前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法
小智老师PMP6 小时前
零基础能不能考PMP?零基础专属学习路径+全套扶持体系
学习·算法·职场和发展·软件工程·求职招聘·敏捷流程