深度学习-----------数值稳定性

目录

神经网络的梯度

考虑如下有d层的神经网络,输入x 和输出y的深层网络。每一层t由线性变换 f 1 f_1 f1定义,该变换的参数为权重 w ( t ) w^{(t)} w(t),其隐藏变量是 h ( t ) h^{(t)} h(t)(令 h ( 0 ) h^{(0)} h(0)=x)。我们的网络可以表示为:


层:记作t
l:损失函数(即预测的要进行优化的目标函数)
y:y不是预测,还包括损失函数

计算损失l关于参数 w ( t ) w^{(t)} w(t)的梯度。


数值稳定性的常见两个问题

例子:MLP

加入如下MLP(为了简单省略了偏移)(即MLP:多层感知机的模型)


首先对激活函数进行求导,它是一个按元素的一个函数,所以对它的求导就变成一个diag(对角)矩阵


梯度爆炸

使用ReLU作为激活函数


通过(元素为0和1的)对角矩阵与相乘,那么意味着把某一列留住了,要么把它全变为0。

是指那些没有变成0的那一列的乘法

如果d-t很大,值将会很大。(意思是网络比较深的话,那么它的值会比较大,因为里面全是w的元素,假设每个w的元素都是大于1的话,而且层数比较大的情况下,那么就会有非常大的值。)


梯度爆炸的问题

值超出值域 (infinity)
对于16位浮点数尤为严重(数值区间为(6e-5,6e-4))

对学习率敏感
如果学习率太大→大参数值→更大的梯度
(如果学习率太大,那么就会带来比较大的参数值,因为每一步走的比较远,那么权重会变的比较大,权重变大对应的梯度更大(这里的梯度即:权重的乘法))

如果学习率太小→训练无进展
我们可能需要在训练过程不断调整学习率。


梯度消失

使用sigmoid作为激活函数


当激活函数的输入稍微大一点时,它的导数就变为接近0,连续n个接近0的数相乘,最后的梯度就接近0,梯度就消失了。

梯度消失的问题

梯度值变成0
对16位浮点数尤为严重

训练没有进展
不管如何选择学习率
(梯度为0,不管学习率如何变都不会有进展,权重=学习率*梯度)

对于比较深的网络的时候,对于底层尤为严重
仅仅顶部层训练的较好
无法让神经网络更深


总结

当数值过大或者过小时会导致数值问题。
常发生在深度模型中,因为其会对n个数累乘。


模型初始化和激活函数

让训练更加稳定


目标:让梯度值在合理的范围内
例如:[1e-6,1e3]
将乘法变加法
ResNet,LSTM
归一化
梯度归一化,梯度裁剪
合理的权重初始和激活函数


让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致


权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
远离最优解的地方损失函数表面可能很复杂(比较陡,说明梯度越大)
最优解附近表面会比较平
使用N(0,0.01)来初始可能对小网络没问题,但不能保证深度神经网络。

正向均值和方差

例子:MLP
假设
(即:权重是一个独立同分布(Independent identical distribution),代表的意思是权重的第t层第i行第j列,那么均值等于0,方差等于 γ t γ_t γt,t为其层数。
t-1层的输入独立于当前的权重。

正向均值

正向方差

方差=平方的期望-期望的平方


方差=平方项的均值-均值的平方。
其中为0.

全独立,每个的均值为0,

的均值为0,这两项就等价于其方差。
题设:
其中对j进行求和,j的取值就是[0,t-1]
n t − 1 n_{t-1} nt−1是第t-1层的维度数


反向均值和方差


Xavier初始


正向和反向的均值和方差(书上)

正向均值和方差

假设:



相互独立
在这种情况下,我们可以按如下方式计算 o_i 的平均值和方差:


保持方差不变()的一种方法是设置

反向均值和方差

假设:


可以看到,除非
否则梯度的方差可能会增大,其中 是该层的输出的数量。这使得我们进退两难:我们不可能同时满足这两个条件。 相反,我们只需满足:

或等价于

通常,Xavier初始化从均值为零,方差高斯分布中采样权重。
我们也可以将其改为选择从均匀分布中抽取权重时的方差。 注意均匀分布的方差为。 将代入到 的条件中,将得到初始化值域:


从线性的激活函数的角度提升数值稳定性

正向

反向


由以上推理可知:从激活函数的角度保持每层的输入和输出的均值和方差不变,必须使得激活函数


检查常用激活函数


总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。


问题

①nan(not a number)和inf是怎么产生的以及怎么解决吗?
inf是太大了,权重初始没更新
nan是除0产生的。
解决:合理初始化权重、学习率、激活函数

②在训练的过程中,如果网络层的输出层特征元素的值突然变成nan了,是发生了梯度爆炸了吗?还是有什么其它可能的原因?
对,一般来说nan就是梯度太大造成的,所以一般是梯度的问题

③梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题吗?
不对,梯度消失有很多可能因素,不一定是sigmoid引起的。ReLU替换sigmoid可以让梯度消失的概率减少。

④为什么乘法变加法可以让训练更稳定?
100个1.5乘在一起梯度会炸,但100个1.5相加没问题。

⑤使用resnet为什么还会出现数值稳定性问题?
只能缓解问题不能解决问题。

相关推荐
Qspace丨轻空间几秒前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
没有不重的名么1 分钟前
门控循环单元GRU
人工智能·深度学习·gru
love_and_hope5 分钟前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
2403_8757368721 分钟前
道品科技智慧农业中的自动气象检测站
网络·人工智能·智慧城市
学术头条44 分钟前
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
人工智能·科技·深度学习·语言模型
准橙考典1 小时前
怎么能更好的通过驾考呢?
人工智能·笔记·自动驾驶·汽车·学习方法
ai_xiaogui1 小时前
AIStarter教程:快速学会卸载AI项目【AI项目管理平台】
人工智能·ai作画·语音识别·ai写作·ai软件
孙同学要努力1 小时前
《深度学习》——深度学习基础知识(全连接神经网络)
人工智能·深度学习·神经网络
喵~来学编程啦2 小时前
【论文精读】LPT: Long-tailed prompt tuning for image classification
人工智能·深度学习·机器学习·计算机视觉·论文笔记
深圳市青牛科技实业有限公司2 小时前
【青牛科技】应用方案|D2587A高压大电流DC-DC
人工智能·科技·单片机·嵌入式硬件·机器人·安防监控