两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:

Xavier

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。

正态分布参数初始化

N ( 0 , 2 n in + n out ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right) N(0,nin +nout 2)

均匀分布参数初始化

U ( − 6 n in + n out , 6 n in + n out ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right) U(−nin +nout 6 ,nin +nout 6 )

Kaiming

Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1
反向传播时梯度的方差都是1

正态分布参数初始化

N ( 0 , 2 n in ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right) N(0,nin 2)

均匀分布参数初始化

U ( − 6 n in , 6 n in ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right) U(−nin 6 ,nin 6 )

n i n n_{in} nin表示每层输入的神经元数量


参考

相关推荐
LaughingZhu19 小时前
Product Hunt 每日热榜 | 2026-03-28
数据库·人工智能·经验分享·神经网络·chatgpt
flying_13141 天前
图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)-torch(一)
深度学习·神经网络·torch·图神经网络·gat·han·语义级注意力
flying_13141 天前
图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(三)
深度学习·神经网络·tensorflow·gat·han·节点级别注意力·语义级别注意力
flying_13142 天前
图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(二)
深度学习·神经网络·tensorflow·图论·图神经网络·代码实战·han
剑穗挂着新流苏3122 天前
202_深度学习的动力源泉:矩阵微积分与自动求导 (Autograd)
人工智能·pytorch·python·深度学习·神经网络
陈天伟教授2 天前
人工智能应用- AI 增强显微镜:08.实时辅助诊断
人工智能·神经网络·机器学习·推荐算法
逻辑君2 天前
Research in Brain-inspired Computing [9]-球机器人研究【2】
人工智能·深度学习·神经网络·机器人
这张生成的图像能检测吗2 天前
(论文速读)TDANN:用于轴承故障诊断的三域对抗神经网络
人工智能·深度学习·神经网络·故障诊断
放下华子我只抽RuiKe52 天前
深度学习 - 01 - NLP自然语言处理基础
前端·人工智能·深度学习·神经网络·自然语言处理·矩阵·easyui
是大强2 天前
GaN器件
人工智能·神经网络·生成对抗网络