【机器学习】正向传播与反向传播

禾风wyh2024-11-29 12:06

神经网络的训练过程中，正向传播（Forward Propagation）和反向传播（Backward Propagation）是两个核心步骤，分别涉及到信息的传递和误差的调整。

正向传播 (Forward Propagation)

正向传播是神经网络计算输出的过程。在每一层神经元中，输入信号经过加权和（权重w和偏置b）后通过激活函数（如ReLU、Sigmoid等）产生输出，并传递到下一层。输入层 接收输入数据之后，隐藏层 根据输入信号和权重进行计算。每个神经元接收到输入后，先通过加权求和，并加上偏置，然后通过激活函数得到输出，最后输出层生成最终的网络输出，通常经过某种形式的激活函数（如softmax或sigmoid），得到预测值。公式以及图示如下：

反向传播 (Backward Propagation)

反向传播是神经网络训练中用于优化权重的过程，它根据正向传播计算的输出与实际标签之间的误差（通常是损失函数的值）来调整每一层的权重。首先计算损失， 通过损失函数（如均方误差、交叉熵损失等）计算预测值与真实标签之间的差距；然后计算梯度， 反向传播算法通过链式法则计算每一层参数的梯度，即损失函数相对于每个参数的偏导数，最后进行**更新权重，**使用梯度下降（或其他优化算法，如Adam）根据计算出的梯度更新权重和偏置。更新公式为：

反向传播的关键在于通过逐层计算梯度，从输出层到输入层依次反向传播误差，调整每一层的权重，使得损失最小化。

正向传播 是神经网络从输入到输出的过程，主要用于计算输出结果。反向传播是根据输出和目标值之间的差距调整网络参数的过程，主要用于优化网络的权重和偏置。这两个过程交替进行，直到网络的损失函数最小化，达到训练目标。

卷积层中的反向传播

之前，我们讨论过在线性层中反向传播是如何进行操作的，现在我们讨论一下在卷积层中如何进行反向传播的计算。卷积层的操作本质上就是卷积核对图片进行卷积（对应相乘之后再相加），下图展示了一个3x3的卷积核，对5x5的图片进行卷积操作得到2x2的特征图的过程，其中卷积过程中的stride步长为2。

特征图上的像素点z1、z2、z3、z4的计算公式如下：

而通过对得到的特征图（z1、z2、z3、z4）进行操作，可以得到预测值y，最终计算除损失函数L。因为我们最终想要训练的参数值是卷积核上的数值，所以需要对w1...w9进行求偏导，根据链式法则，L先对z1...z4求偏导，然后再进一步分别对w1...w9求偏导。

损失函数L对卷积核上的权重值求偏导的公式如下所示：

将公式列出后，我们可以找到规律，L对z1求偏导的系数对应对应图片上相乘再相加后得到z1的元素部分，L对z2、z3、z4求偏导的系数也是一样的。

得到L对w1...w9的偏导（梯度）之后，我们就可以进行权重更新。

简化之后，可以得到与线性层相似的梯度更新公式：

这个过程通过不断地进行正向传播和反向传播，逐步调整卷积核的权重和偏置项，使得网络输出更接近实际目标。

上一篇：《解读 freeRTOS queue.c 源码：探寻任务间高效通信的核心机制》（建议收藏）

下一篇：小程序 - 婚礼邀请函

热门推荐

01Java学习第十五部分——MyBatis 02GPU 进阶笔记（二）：华为昇腾 910B GPU 03Coze扣子平台完整体验和实践（附国内和国际版对比）04基于odoo17的设计模式详解---装饰模式 05Word粘贴时出现“运行时错误53,文件未找到：MathPage.WLL“的解决方案 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07集群聊天服务器---MySQL数据库的建立 08扣子空间的使用教程与大模型技术思考 09DeepSeek各版本说明与优缺点分析 10Everything文件检索工具几秒检索几百G的文件