两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:

Xavier

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。

正态分布参数初始化

N ( 0 , 2 n in + n out ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right) N(0,nin +nout 2)

均匀分布参数初始化

U ( − 6 n in + n out , 6 n in + n out ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right) U(−nin +nout 6 ,nin +nout 6 )

Kaiming

Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1
反向传播时梯度的方差都是1

正态分布参数初始化

N ( 0 , 2 n in ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right) N(0,nin 2)

均匀分布参数初始化

U ( − 6 n in , 6 n in ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right) U(−nin 6 ,nin 6 )

n i n n_{in} nin表示每层输入的神经元数量


参考

相关推荐
夏洛克信徒3 小时前
AI盛宴再启:Gemini 3与Nano Banana Pro掀起的产业革命
人工智能·神经网络·自然语言处理
西猫雷婶3 小时前
CNN卷积计算|多维卷积核自动计算
人工智能·pytorch·深度学习·神经网络·机器学习·cnn
我爱鸢尾花4 小时前
RNN公式推导、案例实现及Python实现
人工智能·python·rnn·深度学习·神经网络·算法
Dfreedom.6 小时前
正则化全面解析:从过拟合防治到模型优化之道
深度学习·神经网络·机器学习·正则化·过拟合
方知我6 小时前
【GoogLeNet】基本原理
人工智能·pytorch·深度学习·神经网络·cnn
西猫雷婶6 小时前
CNN卷积计算|多维卷积核
深度学习·神经网络·cnn
禁默6 小时前
机器学习基础入门(第七篇):神经网络训练优化与常见问题解析
人工智能·神经网络·机器学习
大千AI助手7 小时前
Sigmoid函数:从生物生长曲线到神经网络激活的桥梁
人工智能·神经网络·机器学习·激活函数·sigmoid·大千ai助手·lr
高洁011 天前
具身智能-视觉语言导航(VLN)(3
深度学习·神经网络·算法·aigc·transformer
sensen_kiss1 天前
INT301 Bio-computation 生物计算(神经网络)Pt.9 自我组织特征映射(Self-Organizing Fearure Map)
人工智能·深度学习·神经网络·机器学习