对于深度神经网络,为了使得训练过程更少遇到极小点,应该采用何种权重初始化策略?

在深度神经网络中,权重初始化策略的核心目标是打破对称性、维持信号(前向传播)和梯度(反向传播)的稳定方差,从而避免训练陷入不良的局部极小点(更常见的是鞍点)并加速收敛。以下是为减少陷入不良极小点/鞍点风险而推荐的关键策略:

核心策略:使用基于方差的初始化

  1. Xavier/Glorot 初始化 (适用于 Sigmoid/Tanh 等饱和激活函数)

原理:保持各层激活值(前向传播)和梯度(反向传播)的方差大致相同。

公式:

均匀分布:W ~ Uniform(-√(6/(fan_in + fan_out)), √(6/(fan_in + fan_out)))

正态分布:W ~ Normal(0, √(2/(fan_in + fan_out)))

适用场景:线性激活、Sigmoid、Tanh 等。

  1. He/Kaiming 初始化 (适用于 ReLU 及其变体等非饱和激活函数)

原理:修正 ReLU 的"一半神经元输出为0"的特性,专门保持前向传播中激活值的方差稳定(尤其针对 ReLU 家族)。

公式:

正态分布:W ~ Normal(0, √(2 / fan_in))

均匀分布:W ~ Uniform(-√(6 / fan_in), √(6 / fan_in))

变种:

fan_in 模式(默认):保证前向传播方差稳定(推荐)。

fan_out模式:保证反向传播梯度方差稳定。

适用场景:ReLU、Leaky ReLU、PReLU、ELU 等。

为什么这些策略能减少陷入不良极小点/鞍点的风险?

  1. 打破对称性:

所有初始化方法都使用随机分布(而非全零初始化),确保不同神经元学习不同特征,这是训练成功的先决条件。

  1. 控制梯度方差:

不良初始化(如值过大)→ 梯度爆炸 → 优化不稳定,难以收敛到良好区域。

不良初始化(如值过小)→ 梯度消失 → 梯度趋近于0 → 优化停滞在平坦区域(鞍点或劣质极小点)。

Xavier/He 初始化通过数学推导确保各层梯度的方差可控,显著降低梯度消失/爆炸的概率。

  1. 保持激活值分布合理:

避免激活值过早进入饱和区(如 Sigmoid 两端),导致梯度接近于0("死神经元"),使优化陷入停滞。

其他增强策略

  1. 针对特定激活函数的初始化:

Leaky ReLU/PReLU:使用 He 初始化,并在公式中考虑负斜率(如 √(2 / (1 + a²)) / √fan_in,`a` 为负斜率)。

SELU:需要配合 LeCun 初始化(W ~ Normal(0, √(1 / fan_in)))和 α-dropout 才能保证自归一化。

  1. 正交初始化 (Orthogonal Initialization):

生成正交矩阵 (W^T W = I)。

优势:理论上能保持梯度范数,缓解梯度消失/爆炸。

适用场景:RNN、LSTM 等序列模型效果显著。

  1. 稀疏初始化 (Sparse Initialization):

将大部分权重初始化为0,小部分随机初始化(打破对称性)。

目的:模拟生物神经网络的稀疏性,可能带来正则化效果。

实践:通常不如 Xavier/He 高效。

应避免的初始化方法

  1. 全零初始化:

导致所有神经元学习相同的特征 → 网络退化,完全失去表达能力。

  1. 过大/过小的常数初始化:

过大 → 梯度爆炸、激活值饱和。

过小 → 梯度消失、激活信号过弱。

  1. 普通正态/均匀分布(未校准方差):

如 Normal(0, 1) 或 Uniform(-1, 1),方差未与 `fan_in`/`fan_out` 关联 → 极易梯度消失/爆炸。

实践建议:

  1. 默认首选 He 初始化(尤其对 CNN 和 MLP),因其对 ReLU 的普适性。

  2. 使用深度学习框架提供的初始化函数(如 PyTorch 的 `kaiming_normal_()`、TensorFlow 的 `glorot_uniform_`)。

  3. 结合 Batch Normalization 可降低对初始化的敏感度,但二者协同使用效果更佳(BN 不能完全替代良好初始化)。

良好的初始化本质是为优化算法(如 SGD、Adam)提供一个梯度稳定、方向多样的起点,极大降低了陷入平坦区域(鞍点或劣质极小点)的概率,使网络能高效收敛到更优解。

相关推荐
逐云者1231 小时前
AI创业公司:来牟科技-智能割草机器人
人工智能·科技·机器人·智能割草机器人
taxunjishu1 小时前
CC-Link IE FB 转 DeviceNet 实现欧姆龙 PLC 与松下机器人在 SMT 生产线锡膏印刷环节的精准定位控制
运维·人工智能·物联网·自动化·区块链
茫茫人海一粒沙1 小时前
让语言模型自我进化:探索 Self-Refine 的迭代反馈机制
人工智能
富唯智能1 小时前
复合机器人能否更换末端执行器?
人工智能·工业机器人·复合机器人
小杨互联网2 小时前
如何确保 ChatGPT 不会让你变“傻”?——四个防止认知萎缩的习惯
人工智能·chatgpt
AMiner:AI科研助手2 小时前
警惕!你和ChatGPT的对话,可能正在制造分布式妄想
人工智能·分布式·算法·chatgpt·deepseek
飞机火车巴雷特3 小时前
【论文阅读】LightThinker: Thinking Step-by-Step Compression (EMNLP 2025)
论文阅读·人工智能·大模型·cot
张较瘦_3 小时前
[论文阅读] 人工智能 + 软件工程 | ReCode:解决LLM代码修复“贵又慢”!细粒度检索+真实基准让修复准确率飙升
论文阅读·人工智能·软件工程
万岳科技程序员小金5 小时前
餐饮、跑腿、零售多场景下的同城外卖系统源码扩展方案
人工智能·小程序·软件开发·app开发·同城外卖系统源码·外卖小程序·外卖app开发
桐果云5 小时前
解锁桐果云零代码数据平台能力矩阵——赋能零售行业数字化转型新动能
大数据·人工智能·矩阵·数据挖掘·数据分析·零售