xavier 初始化

Xavier 初始化 (也称 Glorot 初始化 )是由 Xavier Glorot 和 Yoshua Bengio 在 2010 年的论文《Understanding the Difficulty of Training Deep Feedforward Neural Networks》中提出的。它是深度学习历史上第一个被广泛认可的、专门解决梯度消失/爆炸问题的权重初始化方法。

1. 为什么需要它?(与 Kaiming 的背景类似)

在深度网络(如 6-10 层)刚兴起时,人们发现网络很难训练。原因在于:

  • 梯度消失:浅层(靠近输入层)的权重几乎不更新,无法学习。
  • 梯度爆炸:梯度变得极大,导致权重更新失控。

Xavier 指出,问题的根源在于权重的初始尺度 。他提出一个核心原则:让每一层输出的方差等于输入的方差,并且让梯度的方差在反向传播时也保持恒定

2. 核心数学原理

Xavier 的推导基于以下假设:

  • 激活函数是线性的(在初始化阶段,tanh 在小值附近近似线性)。
  • 权重和输入是独立同分布的,且均值为 0。
  • 不使用偏置(或偏置初始化为 0)。

推导结果:权重的方差应该设置为:

\\text{Var}(W) = \\frac{2}{\\text{fan_in} + \\text{fan_out}}

  • fan_in:当前层的输入神经元数量(即权重矩阵的输入维度)。
  • fan_out:当前层的输出神经元数量(即权重矩阵的输出维度)。

这个公式同时考虑了前向传播(用到 fan_in)和反向传播(用到 fan_out),是一个调和平均的思想。

3. 常用实现公式

在实际代码中,Xavier 初始化通常采用均匀分布正态分布来采样:

均匀分布 (Uniform)

由于均匀分布的方差为 ( \frac{(b-a)^2}{12} ),为了得到上述方差,边界 ( b ) 和 ( a ) 应设为:

W \\sim U\\left\[-\\sqrt{\\frac{6}{\\text{fan_in} + \\text{fan_out}}},\\ \\sqrt{\\frac{6}{\\text{fan_in} + \\text{fan_out}}}\\right

]

正态分布 (Normal)

W \\sim \\mathcal{N}\\left(0,\\ \\sqrt{\\frac{2}{\\text{fan_in} + \\text{fan_out}}}\\right)

4. 代码实现(PyTorch 示例)

PyTorch 提供了内置的 Xavier 初始化方法:

python 复制代码
import torch.nn as nn

# 定义一个线性层
linear_layer = nn.Linear(256, 128)

# Xavier 均匀分布初始化
nn.init.xavier_uniform_(linear_layer.weight, gain=1.0)

# Xavier 正态分布初始化
nn.init.xavier_normal_(linear_layer.weight, gain=1.0)

# 如果有偏置,通常初始化为 0
if linear_layer.bias is not None:
    nn.init.constant_(linear_layer.bias, 0)

参数说明

  • gain:可选的缩放因子。对于不同的激活函数,建议使用不同的 gain 值(见下表)。

5. 适用场景与激活函数选择

激活函数 推荐初始化 gain 值
Tanh Xavier gain = 1.0(默认)
Sigmoid Xavier gain = 1.0
ReLU ❌ Xavier 效果差,应使用 Kaiming ---
Leaky ReLU Kaiming 更好 ---

为什么 ReLU 不适合 Xavier?

  • Xavier 假设激活函数关于 0 对称,且在小值范围内近似线性。
  • ReLU 将所有负值置为 0,导致输出方差减半。因此 Xavier 初始化在 ReLU 网络中会导致信号逐渐消失。
  • 这就是为什么后来 Kaiming He 专门针对 ReLU 提出了 Kaiming 初始化(方差公式中使用 ( \frac{2}{\text{fan_in}} ) 而不是 ( \frac{2}{\text{fan_in} + \text{fan_out}} ))。

6. Xavier vs. Kaiming 对比

维度 Xavier 初始化 Kaiming 初始化
提出时间 2010 年 2015 年
适用激活函数 Tanh, Sigmoid, 线性 ReLU, Leaky ReLU, PReLU
方差公式 ( \frac{2}{\text{fan_in} + \text{fan_out}} ) ( \frac{2}{\text{fan_in}} ) (ReLU)
理论假设 激活函数关于 0 对称 激活函数非对称(存在负值截断)
解决的主要问题 梯度消失/爆炸(浅层网络) 深层网络(如 ResNet)中的 ReLU 信号衰减

7. 总结与使用建议

  • 激活函数是 Tanh 或 Sigmoid :优先选择 Xavier 初始化
  • 激活函数是 ReLU 或其变体 :优先选择 Kaiming 初始化 (PyTorch 中也称 kaiming_uniform_kaiming_normal_)。
  • 不太确定时:现代深度学习(尤其是 CNN)几乎默认使用 ReLU + Kaiming 初始化。但如果你在使用 Transformer 或 MLP 时遇到 Tanh,Xavier 依然是不错的选择。
  • 一个小技巧 :PyTorch 的 nn.init.calculate_gain() 可以帮助你计算不同激活函数下推荐的 gain 值,用于调整初始化尺度。
python 复制代码
# 计算不同激活函数的推荐 gain
gain_tanh = nn.init.calculate_gain('tanh')   # 输出 1.0
gain_relu = nn.init.calculate_gain('relu')   # 输出 1.414 (即 sqrt(2))
gain_sigmoid = nn.init.calculate_gain('sigmoid')  # 输出 1.0

总的来说,Xavier 初始化是深度学习中对称激活函数(Tanh/Sigmoid)的最佳选择,也是理解现代初始化方法(如 Kaiming)的基础。掌握它,你就掌握了深度学习权重初始化的核心理念。

相关推荐
Black蜡笔小新2 分钟前
企业AI算力工作站/深度学习推理工作站DLTM零代码私有化重塑智慧农业AI模型训练体系
人工智能·深度学习
数智工坊13 分钟前
【UniT论文阅读】:用统一物理语言打通人类与人形机器人的知识壁垒
论文阅读·人工智能·深度学习·算法·机器人
L、21817 分钟前
CANN神经网络算子库`ops-nn`:昇腾NPU上Matmul与激活函数的底层逻辑
人工智能·深度学习·神经网络
AI医影跨模态组学34 分钟前
eClinMed 遵义医科大学附属医院:肺癌术后肺部并发症可解释机器学习预测模型的开发与验证:一项机器学习研究
人工智能·深度学习·机器学习·论文·医学影像·影像组学
DogDaoDao43 分钟前
【AI Agent 深度解析】OpenHuman 开源项目全面分析 — 打造你的个人 AI 超级智能助手
人工智能·深度学习·开源·大模型·ai agent·智能体·openhuman
AI医影跨模态组学1 小时前
Radiology(IF=15.2)北京大学肿瘤医院影像科孙应实教授团队:CT预测微卫星不稳定性高结肠癌区域淋巴结转移
人工智能·深度学习·论文·医学·医学影像·影像组学
AI算法沐枫1 小时前
大一学生如何入门机器学习,深度学习,学习顺序如何?
人工智能·python·深度学习·学习·线性代数·算法·机器学习
龙骑士baby1 小时前
重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape
深度学习·ai·大模型·llm·ai生态
听风吹等浪起1 小时前
基于改进ResUNet的植物叶片语义分割系统设计与实现
人工智能·深度学习·分类
解局易否结局2 小时前
从零搭建 ops-transformer 开发环境:在昇腾NPU上跑通第一个算子
人工智能·深度学习·transformer