两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:

Xavier

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。

正态分布参数初始化

N ( 0 , 2 n in + n out ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}+n_{\text {out }}}\right) N(0,nin +nout 2)

均匀分布参数初始化

U ( − 6 n in + n out , 6 n in + n out ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}, \sqrt{\frac{6}{n_{\text {in }}+n_{\text {out }}}}\right) U(−nin +nout 6 ,nin +nout 6 )

Kaiming

Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。

前向传播时每层的方差都是1
反向传播时梯度的方差都是1

正态分布参数初始化

N ( 0 , 2 n in ) \mathcal{N}\left(0, \frac{2}{n_{\text {in }}}\right) N(0,nin 2)

均匀分布参数初始化

U ( − 6 n in , 6 n in ) \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text {in }}}}, \sqrt{\frac{6}{n_{\text {in }}}}\right) U(−nin 6 ,nin 6 )

n i n n_{in} nin表示每层输入的神经元数量


参考

相关推荐
LaughingZhu7 小时前
Product Hunt 每日热榜 | 2026-02-14
数据库·人工智能·经验分享·神经网络·搜索引擎·chatgpt
民乐团扒谱机7 小时前
【读论文】深度学习中的卷积算术指南 A guide to convolution arithmetic for deep learning
人工智能·深度学习·神经网络·机器学习·cnn·卷积神经网络·图像识别
肾透侧视攻城狮17 小时前
《掌握Keras模型构建基石:全连接、卷积、LSTM等核心层解析与组合策略》
人工智能·深度学习·神经网络·keras核心层类型·conv2d二维卷积层·lstm长短期记忆网络层·dropout随机失活层
陈天伟教授18 小时前
人工智能应用- 人机对战:06. 小结
人工智能·深度学习·神经网络·机器学习·dnn
Rorsion18 小时前
PyTorch实现卷积神经网络(CNN)
人工智能·神经网络·cnn
陈天伟教授21 小时前
人工智能应用- 扫地机器人:02. 机器人 ≠ 人工智能
人工智能·神经网络·游戏·自然语言处理·机器人·机器翻译
隔壁大炮21 小时前
第二章 多层神经网络
人工智能·深度学习·神经网络·算法
肾透侧视攻城狮1 天前
《掌握TensorFlow数据管道:核心API详解、高效构建策略、性能调优与完整项目实战》
深度学习·神经网络·内存管理·性能优化策略·tensorflow数据处理·tensorflow 管道·图像分类管道
Yaozh、1 天前
【word2vec模型】两种模型结构CBOW和Skip-gram的具体过程
人工智能·深度学习·神经网络·自然语言处理·nlp·word2vec
陈天伟教授1 天前
人工智能应用- 扫地机器人:01.什么是机器人
人工智能·神经网络·语言模型·自然语言处理·机器人·机器翻译