权重初始化

1. 权重初始化的核心作用

简单来说,权重初始化的主要作用是打破神经元之间的对称性 ,并控制信号(前向的激活值和后向的梯度)的传播尺度,从而让网络能够高效、稳定地训练。

一个好的初始化方法能让网络在训练初期就处于一个"信号流动顺畅"的状态。

2. 权重初始化的原理

原理建立在对前向传播反向传播 的方差分析之上。核心思想是:让每一层输出的方差尽可能等于其输入的方差 ,同时让每一层梯度的方差也尽可能保持不变

以经典的 Xavier 初始化为例,其推导逻辑是:

  • 假设 :我们使用线性激活函数(或近似线性的激活区间,如tanh),且权重和输入独立同分布,均值为0。

  • 目标Var(y) = Var(x),其中x是输入,y是该层的输出(激活前的值)。

  • 推导 :对于一个线性层 y = Wx + b,如果 Wx 独立且均值为0,则有 Var(y) = n_in * Var(W) * Var(x)n_in 是输入神经元个数。

  • 结论 :为了让 Var(y) = Var(x),需要 Var(W) = 1 / n_in

同样,从反向传播角度考虑(让梯度方差不变),会得到 Var(W) = 1 / n_out。为了同时满足前向和后向,Xavier 初始化通常取两者的调和平均:Var(W) = 2 / (n_in + n_out)

原理的本质 :通过精心设计权重的初始分布(如均匀分布或正态分布)的方差,使其与网络层的尺寸(输入输出神经元个数) 以及激活函数相匹配,从而在训练开始时维持一个稳定的信号尺度。

3. 常见的权重初始化方法

(1) 零初始化
  • 做法:所有权重设为0。

  • 问题 :所有神经元计算相同,梯度相同,更新后仍相同。网络完全无法学习。仅用于偏置(bias)的初始化

(2) 随机初始化
  • 做法 :从小随机数(如正态分布 N(0, 0.01))初始化。

  • 问题 :方差固定,不随层尺寸变化。对于深层网络,极易导致梯度消失或爆炸。现在已不推荐用于深层网络

(3) Xavier / Glorot 初始化
  • 适用激活函数tanhlogisticsoftmaxlinear(即S型函数和无激活函数)。

  • 原理:保持输入和输出的方差一致。

  • 实现方式

    • 正态分布:W ~ N(0, 2 / (n_in + n_out))

    • 均匀分布:W ~ U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]

(4) He / Kaiming 初始化
  • 适用激活函数ReLU 及其变体(如 Leaky ReLUPReLU)。

  • 原理:考虑到 ReLU 会使大约一半的神经元输出为0(方差减半),所以需要将方差扩大一倍来补偿。

  • 实现方式

    • 正态分布:W ~ N(0, 2 / n_in)

    • 均匀分布:W ~ U[-√(6/n_in), √(6/n_in)]

  • 说明n_in 是输入神经元个数。对于 ReLU,这是最常用且效果很好的选择。

(5) 正交初始化
  • 做法:生成一个随机矩阵,然后将其正交化,作为权重矩阵。

  • 原理:正交矩阵的范数为1,能很好地保持向量的长度(从而防止梯度消失/爆炸)。特别适用于循环神经网络(RNN)和某些深度卷积网络。

  • 优点:比随机初始化更稳定,能让信号在更多层中良好传播。

相关推荐
羊小猪~~8 小时前
LLM--BERT架构解析
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
龙文浩_8 小时前
AI深度学习中的自动微分与梯度下降机制解析
人工智能·深度学习
STLearner9 小时前
WWW 2026 | 时空数据(Spatial Temporal)论文总结(交通预测,人群移动,轨迹表示,信控等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
龙文浩_9 小时前
AI深度学习中参数初始化方法及其与激活函数的协同优化
人工智能·深度学习·神经网络
大数据AI人工智能培训专家培训讲师叶梓9 小时前
ARIS:解决科研重复性劳动痛点的双智能体协同科研自动化方案
人工智能·深度学习·机器学习·自然语言处理·自动化·科研·人工智能讲师
liliwoliliwo9 小时前
D-FINE
人工智能·深度学习
人工智能培训9 小时前
系统集成与计算效率问题探析
人工智能·深度学习·机器学习·transformer·知识图谱
星马梦缘9 小时前
强化学习实战4——自定义环境的搭建
python·深度学习·机器学习·强化学习·q-learning·baseline3
张二娃同学10 小时前
GitHub 项目创建与 GitHub Desktop 使用教程
服务器·人工智能·深度学习·yolo·github