微积分在神经网络中的本质

calculus

在一个神经网络中我们通常将每一层的输出结果表示为: a [ l ] a^{[l]} a[l]

为了方便记录,将神经网络第一层记为:

1 \] \[1\] \[1

对应的计算记录为为:
a [ l ] : 第 l 层 a [ j ] : 第 j 个神经元 a^{[l]}:\textcolor{red}{第l层}\\ a_{[j]}:\textcolor{green}{第j个神经元}\\ a[l]:第l层a[j]:第j个神经元

代价函数为:

其中y为实际值,

而对于 d C 0 d w {d{C_0}\over dw} dwdC0是求斜率,或者具体的解释是 w \textcolor{green}{w} w的数值变动对 C 0 \textcolor{red}{C_0} C0的影响:

根据链式法则:
具体计算过程:

所以 w \textcolor{green}{w} w的数值变动对 C 0 \textcolor{red}{C_0} C0的影响与:真实值与计算值的偏差、激活函数 σ \sigma σ,上一层的输出值有关

如果理解了上述的内容,其他的代价函数 ∇ C \nabla C ∇C就只是换偏导对象即可:

比如,如果要计算 d C 0 d b {d{C_0}\over db} dbdC0,只需要替换一项即可:

同理,应用在BP中可以计算 w j k L ; 一条线的权值的影响 w^{L}_{jk}\textcolor{red}{;一条线的权值的影响} wjkL;一条线的权值的影响(其中jk分别代表 L − 1 L-1 L−1和 L L L层中的不同点):

也可以计算 a k L − 1 ; 前一层的输出值的影响 a^{L-1}_{k}\textcolor{red}{;前一层的输出值的影响} akL−1;前一层的输出值的影响:

相关推荐
power 雀儿19 分钟前
Transformer输入嵌入与绝对位置编码
人工智能·深度学习·transformer
(; ̄ェ ̄)。19 分钟前
机器学习入门(十八)特征降维
人工智能·机器学习
薛不痒23 分钟前
深度学习的补充:神经网络处理回归问题(人脸关键点识别)&自然语言处理的介绍
深度学习·神经网络·回归
m0_6038887135 分钟前
Toward Cognitive Supersensing in Multimodal Large Language Model
人工智能·机器学习·ai·语言模型·论文速览
GIS数据转换器1 小时前
基于AI的低空数联无人机智慧巡查平台
大数据·人工智能·机器学习·无人机·宠物
攒了一袋星辰1 小时前
Transformer词向量与自注意力机制
人工智能·深度学习·transformer
爱吃rabbit的mq1 小时前
第2章 机器学习的核心概念(上)
人工智能·机器学习
觉醒大王2 小时前
科研新手如何读文献?从“乱读”到“会读”
论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
爱吃泡芙的小白白2 小时前
机器学习输入层:从基础到前沿,解锁模型性能第一关
人工智能·机器学习
觉醒大王2 小时前
硕士/博士研究生避坑指南
笔记·深度学习·学习·自然语言处理·职场和发展·学习方法