两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:

Xavier

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。

正态分布参数初始化

N ( 0 , 2 n in + n out ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right) N(0,nin +nout 2)

均匀分布参数初始化

U ( − 6 n in + n out , 6 n in + n out ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right) U(−nin +nout 6 ,nin +nout 6 )

Kaiming

Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1
反向传播时梯度的方差都是1

正态分布参数初始化

N ( 0 , 2 n in ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right) N(0,nin 2)

均匀分布参数初始化

U ( − 6 n in , 6 n in ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right) U(−nin 6 ,nin 6 )

n i n n_{in} nin表示每层输入的神经元数量


参考

相关推荐
AshinGau3 小时前
Softmax 与 交叉熵损失
神经网络·算法
陈天伟教授6 小时前
人工智能应用-机器视觉:车牌识别(2)
人工智能·神经网络·机器学习
江上鹤.1486 小时前
Day37 MLP神经网络的训练
人工智能·深度学习·神经网络
c骑着乌龟追兔子7 小时前
Day 39 MLP神经网络的训练
人工智能·深度学习·神经网络
Echo_NGC22378 小时前
【DDPM 扩散模型】Part 7:最后总结!Denoising Diffusion Probabilistic Models论文全维度详解
人工智能·深度学习·神经网络·扩散模型·ddpm·高斯噪声
有为少年8 小时前
数据增强在小型卷积神经网络中的有效性探究
人工智能·深度学习·神经网络·机器学习·cnn
wjykp9 小时前
part 3神经网络的学习
人工智能·神经网络·学习
豆芽81910 小时前
计算机视觉:异常检测(paper with code汇总更新中)
人工智能·神经网络·计算机视觉·视觉检测·扩散模型
AI即插即用11 小时前
即插即用系列 | MICCAI EM-Net:融合 Mamba 与频域学习的高效 3D 医学图像分割网络
网络·人工智能·深度学习·神经网络·学习·计算机视觉·视觉检测
陈天伟教授12 小时前
人工智能应用-机器视觉:车牌识别(1)
人工智能·神经网络·机器学习