聊聊 神经网络模型 传播计算逻辑

概述

预训练过程就是在不断地更新权重超参数与偏置超参数,最后选择合适的超参数,生成超参数文件。上一篇博客 是使用已有的预训练超参数文件,要训练自己的超参数,需要对神经网络层中前向传播与反向传播计算熟悉,了解计算逻辑,才能不断地更新选择合适的超参数。

神经网络计算详解

整个神经网络的层数是4层,从顺序来分别是:输入层,两层隐藏层,输出层。隐藏层的激活函数选择sigmoid函数;输出层用softmax函数归一化处理。

神经网络的各层参数和激活函数符号化如下:

  • 输入层:(x)
  • 第一个隐藏层:()
  • 第二个隐藏层:()
  • 输出层:(y)
  • 权重参数:()
  • 偏置参数:()
  • 激活函数:() (例如,Sigmoid、ReLU)
  • 损失函数:(L)

为简化推导,假设使用平方损失函数 (),其中 () 为真实标签。

前向传播

前向传播过程如下:

  1. 输入层到第一个隐藏层:
  2. 第一个隐藏层到第二个隐藏层:
  3. 第二个隐藏层到输出层:

接下来计算反向传播的过程,反向传播的计算过程基于链式法则,目的是计算损失函数相对于网络参数(权重和偏置)的梯度。

图文并茂可以阅读 聊聊神经网络的基础知识

反向传播

损失函数对输出层输出的梯度

对于平方损失函数:

损失函数对输出层输入的梯度

记输出层的输入为

根据链式法则:

=>

这里 是激活函数 的导数。比如,如果使用 Sigmoid 激活函数,那么

损失函数对输出层超参数的梯度



=>=

第二个隐藏层,损失函数对输入的梯度

根据链式求导法则:

由上可知,

其中是输出层的参数矩阵, 是向量。我们想要计算 的导数。

我们对 求导数,由于 不包含 ,它们在导数中变为零:

由于第二项为零。只需要计算第一项:

这里 是矩阵, 是向量。使用矩阵微积分规则:

所以,导数 ,其中 的转置矩阵。

最终, 的导数是

=>

第二个隐藏层,损失函数权重和偏置的梯度

根据上述计算逻辑,可以很方便的推出,损失函数对超参数的梯度为

第一个隐藏层,损失函数对输入,超参数的梯度

损失函数对输入的梯度为

损失函数对超参数的梯度为

这样就完成了反向传播的输入、超参数计算过程。这些梯度的计算用于以更新神经网络的权重和偏置。

超参数的更新

上述已计算出来了超参数的梯度,现在用于更新神经网络的超参数,以输出层的权重超参数更新为例;其公式为:

其中 为学习率,的值在上述已计算出来了,直接替换即可。

相关推荐
湘美书院--湘美谈教育13 小时前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
装不满的克莱因瓶17 小时前
掌握条件生成对抗网络(Conditional GAN)模型结构——从无条件生成到可控生成的进阶
人工智能·pytorch·python·深度学习·神经网络·生成对抗网络·计算机视觉
寰宇视讯19 小时前
镓未来GaN助力荣耀WIN 360W氮化镓适配器,高效充电触手可及!
人工智能·神经网络·生成对抗网络
装不满的克莱因瓶20 小时前
掌握生成对抗网络(GAN)原理——从零理解“对抗学习”的核心思想与生成机制
人工智能·pytorch·python·深度学习·神经网络·机器学习·ai
xwz小王子21 小时前
Nature正刊:用神经网络替代有限元仿真,热电设计提速四个数量级
人工智能·深度学习·神经网络
叫我:松哥2 天前
基于卷积神经网络的人脸情绪识别算法,引入残差连接与SE注意力模块
人工智能·深度学习·神经网络·算法·cnn·迁移学习·图像识别
装不满的克莱因瓶2 天前
循环神经网络及LSTM——从序列建模到长期依赖记忆机制
人工智能·pytorch·python·rnn·深度学习·神经网络·lstm
谷哥的小弟2 天前
大模型核心基础知识(18)—Transformer模型的提出背景
人工智能·深度学习·神经网络·大模型·transformer·大语言模型
叫我:松哥2 天前
基于神经网络的汽车与自行车的分类算法设计与实现,采用ResNet50和迁移学习,准确率达到99%
人工智能·python·神经网络·机器学习·分类·汽车·迁移学习
XINVRY-FPGA2 天前
XC7A100T-2CSG324I AMD Xilinx Artix-7 FPGA
arm开发·人工智能·嵌入式硬件·神经网络·fpga开发·硬件工程·fpga