权重初始化

1. 权重初始化的核心作用

简单来说,权重初始化的主要作用是打破神经元之间的对称性 ,并控制信号(前向的激活值和后向的梯度)的传播尺度,从而让网络能够高效、稳定地训练。

一个好的初始化方法能让网络在训练初期就处于一个"信号流动顺畅"的状态。

2. 权重初始化的原理

原理建立在对前向传播反向传播 的方差分析之上。核心思想是:让每一层输出的方差尽可能等于其输入的方差 ,同时让每一层梯度的方差也尽可能保持不变

以经典的 Xavier 初始化为例,其推导逻辑是:

  • 假设 :我们使用线性激活函数(或近似线性的激活区间,如tanh),且权重和输入独立同分布,均值为0。

  • 目标Var(y) = Var(x),其中x是输入,y是该层的输出(激活前的值)。

  • 推导 :对于一个线性层 y = Wx + b,如果 Wx 独立且均值为0,则有 Var(y) = n_in * Var(W) * Var(x)n_in 是输入神经元个数。

  • 结论 :为了让 Var(y) = Var(x),需要 Var(W) = 1 / n_in

同样,从反向传播角度考虑(让梯度方差不变),会得到 Var(W) = 1 / n_out。为了同时满足前向和后向,Xavier 初始化通常取两者的调和平均:Var(W) = 2 / (n_in + n_out)

原理的本质 :通过精心设计权重的初始分布(如均匀分布或正态分布)的方差,使其与网络层的尺寸(输入输出神经元个数) 以及激活函数相匹配,从而在训练开始时维持一个稳定的信号尺度。

3. 常见的权重初始化方法

(1) 零初始化
  • 做法:所有权重设为0。

  • 问题 :所有神经元计算相同,梯度相同,更新后仍相同。网络完全无法学习。仅用于偏置(bias)的初始化

(2) 随机初始化
  • 做法 :从小随机数(如正态分布 N(0, 0.01))初始化。

  • 问题 :方差固定,不随层尺寸变化。对于深层网络,极易导致梯度消失或爆炸。现在已不推荐用于深层网络

(3) Xavier / Glorot 初始化
  • 适用激活函数tanhlogisticsoftmaxlinear(即S型函数和无激活函数)。

  • 原理:保持输入和输出的方差一致。

  • 实现方式

    • 正态分布:W ~ N(0, 2 / (n_in + n_out))

    • 均匀分布:W ~ U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]

(4) He / Kaiming 初始化
  • 适用激活函数ReLU 及其变体(如 Leaky ReLUPReLU)。

  • 原理:考虑到 ReLU 会使大约一半的神经元输出为0(方差减半),所以需要将方差扩大一倍来补偿。

  • 实现方式

    • 正态分布:W ~ N(0, 2 / n_in)

    • 均匀分布:W ~ U[-√(6/n_in), √(6/n_in)]

  • 说明n_in 是输入神经元个数。对于 ReLU,这是最常用且效果很好的选择。

(5) 正交初始化
  • 做法:生成一个随机矩阵,然后将其正交化,作为权重矩阵。

  • 原理:正交矩阵的范数为1,能很好地保持向量的长度(从而防止梯度消失/爆炸)。特别适用于循环神经网络(RNN)和某些深度卷积网络。

  • 优点:比随机初始化更稳定,能让信号在更多层中良好传播。

相关推荐
一切皆是因缘际会25 分钟前
从生成智能到自主智能:人工智能的技术重构与价值迭代
人工智能·深度学习·ai·重构
WPF工业上位机9 小时前
YXGK.FakeVM深度学习之5语义分割
人工智能·深度学习
weixin_468466859 小时前
大模型新手入门与实战指南
人工智能·深度学习·ai·大模型
装不满的克莱因瓶9 小时前
掌握 RNN 与 LSTM 模型结构
人工智能·python·rnn·深度学习·神经网络·ai·lstm
努力学习_小白10 小时前
ResNeXt-50——学习记录
pytorch·深度学习·学习
Kobebryant-Manba10 小时前
记录动手学深度学习基础知识
人工智能·深度学习
LaughingZhu11 小时前
Product Hunt 每日热榜 | 2026-06-04
人工智能·经验分享·深度学习·神经网络·产品运营
君为先-bey11 小时前
JointDiT:使用扩散变换器增强RGB-深度联合建模
人工智能·深度学习·计算机视觉·扩散模型·图像生成
逻辑君13 小时前
神经生物学研究【20260002】
人工智能·深度学习
林间码客14 小时前
深度学习计算:打开工具箱,从“基础用户“升级为“高级用户“
深度学习