微积分在神经网络中的本质

calculus

在一个神经网络中我们通常将每一层的输出结果表示为: a l a^{l} al

为了方便记录,将神经网络第一层记为:

1 \] \[1\] \[1

对应的计算记录为为:
a l : 第 l 层 a j : 第 j 个神经元 a^{l}:\textcolor{red}{第l层}\\ a_{j}:\textcolor{green}{第j个神经元}\\ al:第l层aj:第j个神经元

代价函数为:

其中y为实际值,

而对于 d C 0 d w {d{C_0}\over dw} dwdC0是求斜率,或者具体的解释是 w \textcolor{green}{w} w的数值变动对 C 0 \textcolor{red}{C_0} C0的影响:

根据链式法则:
具体计算过程:

所以 w \textcolor{green}{w} w的数值变动对 C 0 \textcolor{red}{C_0} C0的影响与:真实值与计算值的偏差、激活函数 σ \sigma σ,上一层的输出值有关

如果理解了上述的内容,其他的代价函数 ∇ C \nabla C ∇C就只是换偏导对象即可:

比如,如果要计算 d C 0 d b {d{C_0}\over db} dbdC0,只需要替换一项即可:

同理,应用在BP中可以计算 w j k L ; 一条线的权值的影响 w^{L}_{jk}\textcolor{red}{;一条线的权值的影响} wjkL;一条线的权值的影响(其中jk分别代表 L − 1 L-1 L−1和 L L L层中的不同点):

也可以计算 a k L − 1 ; 前一层的输出值的影响 a^{L-1}_{k}\textcolor{red}{;前一层的输出值的影响} akL−1;前一层的输出值的影响:

相关推荐
墨神谕4 小时前
人工智能(三)— 神经网络的训练
人工智能·神经网络·机器学习
君为先-bey5 小时前
CogVideoX——Transformer从文本到视频的扩散模型
深度学习·音视频·transformer·扩散模型
青风975 小时前
SDDGR:基于稳定扩散的深度生成重放,用于类增量对象检测(CVPR 2024)
网络·人工智能·深度学习·神经网络·计算机视觉
忆~遂愿6 小时前
《大模型驱动软件测试》| 软件工程3.0时代,大模型驱动测试实战指南
人工智能·深度学习·神经网络·机器学习·自然语言处理·软件工程·知识图谱
这是谁的博客?6 小时前
Mamba 状态空间模型深度解析:挑战 Transformer 的新一代架构
深度学习·ai·架构·transformer·ssm·mamba·状态空间模型
有为少年8 小时前
深度隐式层 | 隐式函数与自动微分
人工智能·神经网络·线性代数·机器学习·矩阵
极光代码工作室8 小时前
基于机器学习的二手商品价格预测系统
人工智能·python·深度学习·机器学习
生成论实验室9 小时前
我们给AI装上了判断力
人工智能·深度学习·语言模型·机器人·自动驾驶
君为先-bey9 小时前
LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存
python·算法·机器学习·扩散模型