从0开始深度学习(17)——数值稳定性和模型初始化

在每次训练之前,都会对模型的参数进行初始化,初始化方案的选择在神经网络学习中起着举足轻重的作用, 它对保持数值稳定性至关重要。

我们选择哪个函数以及如何初始化参数 可以决定优化算法收敛的速度有多快。 糟糕选择可能会导致我们在训练时遇到梯度爆炸梯度消失

1 梯度消失和梯度爆炸

不稳定梯度带来的风险不止在于数值表示; 不稳定梯度也威胁到我们优化算法的稳定性。 我们可能面临一些问题:

要么是**梯度爆炸(gradient exploding)问题: 参数更新过大,破坏了模型的稳定收敛;
要么是
梯度消失(gradient vanishing)**问题: 参数更新过小,在每次更新时几乎不会移动,导致模型无法学习。

1.1 梯度消失

这里以sigmoid函数为例,因为它类似于阈值函数,所以也容易导致梯度消失,我们创建了一个从 -8.0 到 8.0,步长为 0.1 的一维张量 x,使用sigmoid函数,然后计算 y 对 x 的梯度,最后输出一个横轴是x,y轴是梯度的图像

python 复制代码
%matplotlib inline
import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

我们发现,当sigmoid函数的输入很大或是很小时,它的梯度都会消失,所以一旦某个网络层的输入过大或者过小,梯度就会消失, 因此,更稳定的ReLU系列函数称为了默认选择

1.2 梯度爆炸

通过构造一个简单的递归函数或链式乘法,可以看到梯度在反向传播过程中如何逐渐增大

python 复制代码
%matplotlib inline
import torch
from d2l import torch as d2l

# 构造从 -1 到 1 的输入数据,并启用梯度计算
x = torch.tensor(1.0, requires_grad=True)

# 模拟梯度爆炸:我们构造一个由 100 个常数值相乘的过程
y = x
for i in range(100):  # 重复 100 次
    y = y * 1.1  # 每次乘以 1.1

# 反向传播
y.backward()

# 绘制结果
x_grad = x.grad.item()
print(f"x 的梯度值为: {x_grad}")

# 由于我们反复放大,梯度会呈指数增长,这就是梯度爆炸的表现。

当这种情况是由于深度网络的初始化所导致时,我们没有机会让梯度下降优化器收敛。

1.3 对称性问题

如果所有的神经元(同一层中的神经元)具有相同的初始权重,它们将学到相同的特征。这种现象会让网络的学习过程失去多样性,进而影响模型的表达能力和训练效果。

例如,如果你把每一层的所有神经元的权重都初始化为 0 或相同的值,网络中的每个神经元都会执行相同的计算,这样就失去了通过不同神经元学习不同特征的意义。

1.4 打破对称性

打破对称性就是在网络初始化时,为每个神经元赋予不同的初始权重值,确保它们在训练过程中能学习到不同的特征。通常的做法是随机初始化权重 ,同样的还能使用暂退法正则化来打破

2 参数初始化

解决(或至少减轻)上述问题的一种方法是进行参数初始化

2.1 默认初始化

之前的例子中,我们一直使用的是正态分布来初始化权重,如果不指定,pytorch框架会使用默认的随机初始化方法。

2.2 Xavier初始化( Glorot 初始化)

核心思想:

Xavier 初始化的目标是确保信号的方差在每一层传播时保持一致,即:

  • 前向传播中,输出的激活值的方差保持稳定,避免过大或过小。
  • 反向传播中,梯度的方差同样保持稳定,避免梯度爆炸或梯度消失。

为了实现这个目标,Xavier 初始化根据输入和输出层的神经元数量,计算合适的初始权重分布。具体公式如下:

对于权重矩阵中的每个元素 W i j W_{ij} Wij ,其初始化值从一个均匀分布或正态分布中随机采样:

  1. 均匀分布:
  1. 正态分布:

​其中:

  • n i n n_{in} nin是该层神经元的输入节点数量(上一层的神经元数量)。
  • n o u t n_{out} nout是该层神经元的输出节点数量(下一层的神经元数量)。

PyTorch 中提供了 Xavier 初始化的方法,可以直接使用 torch.nn.init.xavier_uniform_ 或 torch.nn.init.xavier_normal_ 来应用 Xavier 初始化。

python 复制代码
import torch
import torch.nn as nn

linear = nn.Linear(100, 50)  
# 使用 Xavier 均匀初始化
nn.init.xavier_uniform_(linear.weight)
# 如果需要 Xavier 正态分布初始化
# nn.init.xavier_normal_(linear.weight)

Xavier 初始化通过平衡前向和反向传播中信号和梯度的方差,能够有效地帮助深层网络稳定训练,特别是对于使用 sigmoid 或 tanh 激活函数的网络非常重要。

相关推荐
AIBox3656 小时前
vscode api 配置怎么做:第三方大模型接入 VS Code 的完整方法
ide·人工智能·vscode·gpt·语言模型·编辑器
zhang133830890756 小时前
守护水工安全:CG-85D振弦式渗压计在大坝与堤防监测中的核心作用
运维·服务器·网络·人工智能·自动化
鸿乃江边鸟6 小时前
Nanobot 从 Channel 消息处理看python协程的使用
人工智能·ai·协程
岁月标记6 小时前
MoE 混合专家模型
人工智能
才兄说6 小时前
机器人二次开发动作定制?数周内交付
人工智能·机器人
石榴树下的七彩鱼6 小时前
Python OCR 文字识别 API 接入完整教程
开发语言·人工智能·后端·python·ocr·api·图片识别
芯盾时代6 小时前
RSAC 2026观察 智能体治理崛起
网络·人工智能·网络安全·智能体
十铭忘6 小时前
Scaling Latent Reasoning via Looped Language Models:通过循环语言模型扩展潜在推理
人工智能
斯文by累6 小时前
CHATERM AI:开启云资源氛围管理新篇章!
人工智能
OpenAnolis小助手6 小时前
直播预告: 异构场景下的大模型优化技术 | 龙蜥大讲堂
人工智能·龙蜥大讲堂