1. 权重初始化的核心作用
简单来说,权重初始化的主要作用是打破神经元之间的对称性 ,并控制信号(前向的激活值和后向的梯度)的传播尺度,从而让网络能够高效、稳定地训练。
一个好的初始化方法能让网络在训练初期就处于一个"信号流动顺畅"的状态。
2. 权重初始化的原理
原理建立在对前向传播 和反向传播 的方差分析之上。核心思想是:让每一层输出的方差尽可能等于其输入的方差 ,同时让每一层梯度的方差也尽可能保持不变。
以经典的 Xavier 初始化为例,其推导逻辑是:
-
假设 :我们使用线性激活函数(或近似线性的激活区间,如
tanh),且权重和输入独立同分布,均值为0。 -
目标 :
Var(y) = Var(x),其中x是输入,y是该层的输出(激活前的值)。 -
推导 :对于一个线性层
y = Wx + b,如果W和x独立且均值为0,则有Var(y) = n_in * Var(W) * Var(x)。n_in是输入神经元个数。 -
结论 :为了让
Var(y) = Var(x),需要Var(W) = 1 / n_in。
同样,从反向传播角度考虑(让梯度方差不变),会得到 Var(W) = 1 / n_out。为了同时满足前向和后向,Xavier 初始化通常取两者的调和平均:Var(W) = 2 / (n_in + n_out)。
原理的本质 :通过精心设计权重的初始分布(如均匀分布或正态分布)的方差,使其与网络层的尺寸(输入输出神经元个数) 以及激活函数相匹配,从而在训练开始时维持一个稳定的信号尺度。
3. 常见的权重初始化方法
(1) 零初始化
-
做法:所有权重设为0。
-
问题 :所有神经元计算相同,梯度相同,更新后仍相同。网络完全无法学习。仅用于偏置(bias)的初始化。
(2) 随机初始化
-
做法 :从小随机数(如正态分布
N(0, 0.01))初始化。 -
问题 :方差固定,不随层尺寸变化。对于深层网络,极易导致梯度消失或爆炸。现在已不推荐用于深层网络。
(3) Xavier / Glorot 初始化
-
适用激活函数 :
tanh,logistic,softmax,linear(即S型函数和无激活函数)。 -
原理:保持输入和输出的方差一致。
-
实现方式:
-
正态分布:
W ~ N(0, 2 / (n_in + n_out)) -
均匀分布:
W ~ U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]
-
(4) He / Kaiming 初始化
-
适用激活函数 :
ReLU及其变体(如Leaky ReLU,PReLU)。 -
原理:考虑到 ReLU 会使大约一半的神经元输出为0(方差减半),所以需要将方差扩大一倍来补偿。
-
实现方式:
-
正态分布:
W ~ N(0, 2 / n_in) -
均匀分布:
W ~ U[-√(6/n_in), √(6/n_in)]
-
-
说明 :
n_in是输入神经元个数。对于 ReLU,这是最常用且效果很好的选择。
(5) 正交初始化
-
做法:生成一个随机矩阵,然后将其正交化,作为权重矩阵。
-
原理:正交矩阵的范数为1,能很好地保持向量的长度(从而防止梯度消失/爆炸)。特别适用于循环神经网络(RNN)和某些深度卷积网络。
-
优点:比随机初始化更稳定,能让信号在更多层中良好传播。