数值稳定性
其中h是一个向量,向量关于向量的倒数是一个矩阵,因此求梯度是求矩阵乘法
![](https://img-blog.csdnimg.cn/direct/740e7cd6619f4267982d7b3eee09ee62.png)
矩阵乘法带来了 梯度爆炸,梯度消失
![](https://img-blog.csdnimg.cn/direct/1cf7548d59ea40ea95f2706550b468c0.png)
![](https://img-blog.csdnimg.cn/direct/7f56f8d015244892bfa7ae0c45fc2e12.png)
![](https://img-blog.csdnimg.cn/direct/548b7f374b674684a7d0251c799a35d3.png)
![](https://img-blog.csdnimg.cn/direct/af068c2709d445a4b1dfafd79ea701f0.png)
![](https://img-blog.csdnimg.cn/direct/1a752f54ac6048939f7a1cfe80aaab28.png)
模型初始化和激活函数
![](https://img-blog.csdnimg.cn/direct/75e87627c91e4355bdce2f54f47cac9b.png)
归一化:不管梯度多大,我都把梯度拉回来,否的出现梯度爆炸和梯度消失问题。
![](https://img-blog.csdnimg.cn/direct/768ca6f963ca4465b94b2b1ed704ca27.png)
不管做多深,都能在一个合理范围内
![](https://img-blog.csdnimg.cn/direct/223cfdfbf80440dfbd068f0ba668a5b8.png)
假设权重是独立同分布,定义均值和方差,t是层数
![](https://img-blog.csdnimg.cn/direct/2fe22a20be7e41528967200dd73f042d.png)
![](https://img-blog.csdnimg.cn/direct/95cbe548459e4222bbd4f95805f8586a.png)
![](https://img-blog.csdnimg.cn/direct/a8f39d95874b49ddb79543d198461d67.png)
nt-1是t层输入的维度,nt是输出的维度,除非输入等于输入,除非无法相等
γt是第t层权重的方差
不能满足同时,取个折中,给定当前层和输出层权重大小,就能确定方差大小。
采用正态分布,当前值是0,方差不是固定的0.01了,是根据输入输出决定的。
![](https://img-blog.csdnimg.cn/direct/4bc5cb3de5c34cc5b85e239b8fdd1a23.png)
如果想使得前项输出的均值和方差都是0,固定,那么β=0,α=1.
![](https://img-blog.csdnimg.cn/direct/45368aeee86b40be872ff1f7fec3f00e.png)
意味着什么?意味着激活函数fx必须=x,其中tanh和relu满足在0点附近,sigmoid改变后可以满足fx=x
补充:激活函数:如果不用激活函数,每一层输出都是上层输入的线性函数,如果使用,激活函数给神经元引入了非线性因素,使神经网络可以逼近任何非线性函数。
![](https://img-blog.csdnimg.cn/direct/b266540ba0ab49cfbbc45cdd3c049cbe.png)
总结:可以通过合理的权重初始值和激活函数的选取提升数值的稳定性。
全连接层到卷积
一张图片中找信息,不能所有点都检查一遍。需要满足两个原则
平移不变性
局部性
![](https://img-blog.csdnimg.cn/direct/cf7a78ccc9114d2fb76909daa3c8dbe2.png)
现在x位置变换后,权重也得跟着变换,如何能让他不变。不管ij怎么变换,输出的地方挪到哪个位置,用的识别检测器v都应该不变的。
当把一个模型的取值范围做了限制,模型复杂度就降低了。也就不用存那么多元素了。
![](https://img-blog.csdnimg.cn/direct/2db6497578e84d5d8ae5f6f7e19fc88f.png)
假设要算ij这个输出话,以i为中心,a可以任意变换的位置都要看一遍,但实际不应该看那么远的地方,只看附近就行。因此做出限制。
![](https://img-blog.csdnimg.cn/direct/5eafee3020f8442e89f631cf6c86632d.png)
![](https://img-blog.csdnimg.cn/direct/59a070d5a71440168fe0f1426ecb8c3f.png)
卷积层是特殊的全连接层
全连接层:卷积、池化、激活函数但是将原始数据映射到隐藏特征空间,全连接层是将学到的"分布式特征表示"映射到样本标记空间的作用。
卷积层
![](https://img-blog.csdnimg.cn/direct/db2de9aff16a429b97602d49a8dd3e5e.png)
![](https://img-blog.csdnimg.cn/direct/cb7ce5dc7f8846adb6049023778ee423.png)
![](https://img-blog.csdnimg.cn/direct/7a769c4499c2406dae2d1e209c2195fd.png)
3、统一的公式:o = [( i + 2p - k) / s] + 1
![](https://img-blog.csdnimg.cn/direct/f468d40c341a46aba6ae746010a8572b.png)
说是卷积层,但是为了实现方便,将权重的负号改为了正,实际上是二维交叉相关
![](https://img-blog.csdnimg.cn/direct/1de65293cbf446d689ff421975899d25.png)
气象地图涉及到了时间
![](https://img-blog.csdnimg.cn/direct/bcdc234ebe754363bc44fa097e246c77.png)
总结:
卷积层将输入和核矩阵进行交叉相关,加上偏移后得到输出
核矩阵和偏移时可学习的参数
核矩阵的大小是超参数(kernel的大小)
解决了问题:权重随着输入变得特别大,卷积不会有这个问题。