【动手学深度学习】(八)数值稳定和模型初始化

文章目录

一、理论知识

1.神经网络的梯度

考虑如下有d层的神经网络

计算损失l关于参数Wt的梯度(链式法则)

2.数值稳定性常见的两个问题

3.梯度爆炸

4.梯度爆炸的问题

  • 值超出阈值
    • 对于16位浮点数尤为严重
  • 对学习率敏感
    • 如果学习率太大-> 大参数值 -> 更大的梯度
    • 如果学习率太小->训练无进展
    • 我们可能需要在训练过程中不断调整学习率
      5.梯度消失
  • 使用sigmoid作为激活函数

    6.梯度消失的问题
  • 梯度值变为0
    • 对16位浮点数尤为严重
  • 训练没有进展
    • 不管如何选择学习率
  • 对于底部层尤为严重
    • 仅仅顶部层训练的较好
    • 无法让神经网络更深
      7.让训练更加稳定
  • 目标:让梯度值在合理的范围内,ex[1e-6,1e3]
  • 将乘法变加法
    • ResNet,LSTM
  • 归一化
    • 梯度归一化,梯度裁剪
  • 合理的权重初始和激活函数
    8.让每层的方差是一个常数

    9.权重初始化
  • 在合理值区间里随机初始化参数
  • 训练开始的时候更容易有数值不稳定
    • 远离最优解的地方损失函数表面可能很复杂
    • 最优解附近表面会比较平
      使用来初始化可能对小网络没问题,但不能保证深度神经网络
相关推荐
蓝天守卫者联盟1几秒前
烧结机一氧化碳治理厂家技术路线与市场格局分析
大数据·人工智能·python
思绪无限2 分钟前
YOLOv5至YOLOv12升级:人群密度检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·yolov12·yolo全家桶·人群密度检测系统
雨落Re6 分钟前
Claude Opus 4.6无限使用方法
人工智能·visual studio code
LX567778 分钟前
传统教师如何系统转型AI教育产品设计师?认证解析
人工智能
东离与糖宝12 分钟前
教育智能体基础:个性化教学、答疑、出题、批改
人工智能
阿洛学长13 分钟前
闲鱼智能监控机器人:开源 AI 闲鱼多任务实时监控工具,可视化管理与精准筛选
人工智能·机器人·开源
Ai.den15 分钟前
Windows 安装 DeerFlow 2.0
人工智能·windows·python·ai
Legend NO2415 分钟前
从“看报表”到“对话决策”:AI正在重构数据分析体系
大数据·人工智能
BBTSOH1590151604415 分钟前
VR每日简报2026.4.14
人工智能·机器人·vr·具身智能·人形机器人·机械手·遥操作
MPY_315 分钟前
Windsurf API Proxy - AI 模型统一访问平台
人工智能