【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
爱看大明王朝15668 小时前
磁件学习-磁性元器件的极限计算
笔记·学习
东风破1378 小时前
DM8达梦共享存储集群DSC搭建步骤
数据库·学习·dm达梦数据库
问心无愧05138 小时前
ctf show web入门 40
笔记
星幻元宇VR9 小时前
VR科普大空间:沉浸式公共教育新模式
科技·学习·安全·vr·虚拟现实
@蓝莓果粒茶10 小时前
【Unity笔记】保姆级AssetBundle详解(含代码+避坑指南)
笔记·游戏·unity
kobesdu11 小时前
【ROS2实战笔记-20】ROS2 bag 录播与时间模拟:从基础操作到高级调试技巧
笔记·机器人·ros·ros2
笨鸟先飞的橘猫11 小时前
MMO游戏中的“跨服团队副本”匹配与状态同步系统
分布式·学习·游戏·lua·skynet
kobesdu12 小时前
【ROS2实战笔记-18】ROS2 通信的隐秘控制:DDS 配置参数如何决定系统性能
网络·人工智能·笔记·机器人·开源·ros·人形机器人
雨落在了我的手上12 小时前
如何学习java?
java·开发语言·学习
吃好睡好便好13 小时前
汽车基本组成
学习·汽车