【动手学深度学习】(八)数值稳定和模型初始化

文章目录

一、理论知识

1.神经网络的梯度

考虑如下有d层的神经网络

计算损失l关于参数Wt的梯度(链式法则)

2.数值稳定性常见的两个问题

3.梯度爆炸

4.梯度爆炸的问题

  • 值超出阈值
    • 对于16位浮点数尤为严重
  • 对学习率敏感
    • 如果学习率太大-> 大参数值 -> 更大的梯度
    • 如果学习率太小->训练无进展
    • 我们可能需要在训练过程中不断调整学习率
      5.梯度消失
  • 使用sigmoid作为激活函数

    6.梯度消失的问题
  • 梯度值变为0
    • 对16位浮点数尤为严重
  • 训练没有进展
    • 不管如何选择学习率
  • 对于底部层尤为严重
    • 仅仅顶部层训练的较好
    • 无法让神经网络更深
      7.让训练更加稳定
  • 目标:让梯度值在合理的范围内,ex[1e-6,1e3]
  • 将乘法变加法
    • ResNet,LSTM
  • 归一化
    • 梯度归一化,梯度裁剪
  • 合理的权重初始和激活函数
    8.让每层的方差是一个常数

    9.权重初始化
  • 在合理值区间里随机初始化参数
  • 训练开始的时候更容易有数值不稳定
    • 远离最优解的地方损失函数表面可能很复杂
    • 最优解附近表面会比较平
      使用来初始化可能对小网络没问题,但不能保证深度神经网络
相关推荐
sunshine8859 分钟前
合规性管理:财务安全与业务连续性的双重保障
大数据·运维·人工智能
lusasky9 分钟前
Claude Code v2.1.0+ 版本集成LSP
大数据·数据库·人工智能
yusur12 分钟前
中科驭数CEO鄢贵海:AI尚处“Day 1”,算力基建的价值外溢如同高铁
人工智能·科技·dpu·中科驭数
小鸡吃米…15 分钟前
机器学习 —— 数据缩放
人工智能·python·机器学习
2501_9413370622 分钟前
YOLO11-C3k2-RAB改进模型在航拍军事目标检测中的应用与实现
人工智能·目标检测·目标跟踪
qwy71522925816323 分钟前
9-数字水印的嵌入和提取
人工智能·opencv·计算机视觉
【赫兹威客】浩哥23 分钟前
可食用野生植物数据集构建与多版本YOLO模型训练实践
开发语言·人工智能·python
小马爱打代码34 分钟前
Spring AI 实战:Agent 基础搭建与核心能力解析
java·人工智能·spring
Aaron158836 分钟前
通信灵敏度计算与雷达灵敏度计算对比分析
网络·人工智能·深度学习·算法·fpga开发·信息与通信·信号处理
AgeClub38 分钟前
数智银发,生态共赢:2026银发智能科技与产品渠道生态对接会在上海市养老科技产业园成功举办
人工智能