权重初始化

Ronaldinho Gaúch2026-04-05 13:01

1. 权重初始化的核心作用

简单来说，权重初始化的主要作用是打破神经元之间的对称性 ，并控制信号（前向的激活值和后向的梯度）的传播尺度，从而让网络能够高效、稳定地训练。

一个好的初始化方法能让网络在训练初期就处于一个"信号流动顺畅"的状态。

2. 权重初始化的原理

原理建立在对前向传播 和反向传播 的方差分析之上。核心思想是：让每一层输出的方差尽可能等于其输入的方差 ，同时让每一层梯度的方差也尽可能保持不变。

以经典的 Xavier 初始化为例，其推导逻辑是：

假设：我们使用线性激活函数（或近似线性的激活区间，如tanh），且权重和输入独立同分布，均值为0。
目标：Var(y) = Var(x)，其中x是输入，y是该层的输出（激活前的值）。
推导：对于一个线性层 y = Wx + b，如果 W 和 x 独立且均值为0，则有 Var(y) = n_in * Var(W) * Var(x)。n_in 是输入神经元个数。
结论：为了让 Var(y) = Var(x)，需要 Var(W) = 1 / n_in。

同样，从反向传播角度考虑（让梯度方差不变），会得到 Var(W) = 1 / n_out。为了同时满足前向和后向，Xavier 初始化通常取两者的调和平均：Var(W) = 2 / (n_in + n_out)。

原理的本质 ：通过精心设计权重的初始分布（如均匀分布或正态分布）的方差，使其与网络层的尺寸（输入输出神经元个数） 以及激活函数相匹配，从而在训练开始时维持一个稳定的信号尺度。

3. 常见的权重初始化方法

(1) 零初始化

做法：所有权重设为0。
问题：所有神经元计算相同，梯度相同，更新后仍相同。网络完全无法学习。仅用于偏置（bias）的初始化。

(2) 随机初始化

做法：从小随机数（如正态分布 N(0, 0.01)）初始化。
问题：方差固定，不随层尺寸变化。对于深层网络，极易导致梯度消失或爆炸。现在已不推荐用于深层网络。

(3) Xavier / Glorot 初始化

适用激活函数 ：tanh， logistic， softmax， linear（即S型函数和无激活函数）。
原理：保持输入和输出的方差一致。
实现方式：
- 正态分布：W ~ N(0, 2 / (n_in + n_out))
- 均匀分布：W ~ U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]

(4) He / Kaiming 初始化

适用激活函数 ：ReLU 及其变体（如 Leaky ReLU， PReLU）。
原理：考虑到 ReLU 会使大约一半的神经元输出为0（方差减半），所以需要将方差扩大一倍来补偿。
实现方式：
- 正态分布：W ~ N(0, 2 / n_in)
- 均匀分布：W ~ U[-√(6/n_in), √(6/n_in)]
说明：n_in 是输入神经元个数。对于 ReLU，这是最常用且效果很好的选择。

(5) 正交初始化

做法：生成一个随机矩阵，然后将其正交化，作为权重矩阵。
原理：正交矩阵的范数为1，能很好地保持向量的长度（从而防止梯度消失/爆炸）。特别适用于循环神经网络（RNN）和某些深度卷积网络。
优点：比随机初始化更稳定，能让信号在更多层中良好传播。

上一篇：Claude-code源码学习

下一篇：乐迪信息：船舶AI逆行检测算法在单向航道中的强制管控

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【AI】2026 年具身智能模型和世界模型总结 04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05Codex 手机端连接教程：三分钟搞定，附完整步骤 06Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 07人工智能最新动态 AI 日报 · 2026年5月10日 08AI科技热点日报 | 2026年5月11日 09几个好用的ip纯净度检测网站 10头歌软件工程导论UML画图题(基于starUML)