两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:

Xavier

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。

正态分布参数初始化

N ( 0 , 2 n in + n out ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right) N(0,nin +nout 2)

均匀分布参数初始化

U ( − 6 n in + n out , 6 n in + n out ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right) U(−nin +nout 6 ,nin +nout 6 )

Kaiming

Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1
反向传播时梯度的方差都是1

正态分布参数初始化

N ( 0 , 2 n in ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right) N(0,nin 2)

均匀分布参数初始化

U ( − 6 n in , 6 n in ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right) U(−nin 6 ,nin 6 )

n i n n_{in} nin表示每层输入的神经元数量


参考

相关推荐
LaughingZhu12 小时前
Product Hunt 每日热榜 | 2026-02-10
人工智能·经验分享·深度学习·神经网络·产品运营
技术传感器13 小时前
大模型从0到精通:对齐之心 —— 人类如何教会AI“好“与“坏“ | RLHF深度解析
人工智能·深度学习·神经网络·架构
island131420 小时前
ops-nn 算子库:神经网络异构加速的秘密武器与微架构深度协同
人工智能·神经网络·性能优化
LaughingZhu21 小时前
Product Hunt 每日热榜 | 2026-02-11
人工智能·经验分享·神经网络·信息可视化·产品运营
A尘埃21 小时前
数学:神经网络的数学基础
人工智能·深度学习·神经网络
艾派森1 天前
深度学习实战-基于CNN与Transformer的人工智能艺术VS人类艺术识别模型
人工智能·python·深度学习·神经网络·cnn
杜子不疼.1 天前
神经网络入门:从零开始构建你的第一个深度学习模型
人工智能·深度学习·神经网络
阿龙AI日记1 天前
热力图:网络到底学了个啥?
深度学习·神经网络·计算机视觉
永远都不秃头的程序员(互关)1 天前
CANN GE:图神经网络驱动的多模态AIGC创新
人工智能·神经网络·aigc
骇城迷影2 天前
从零构建 GPT 分词器
linux·服务器·pytorch·gpt·深度学习·神经网络