【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
峰顶听歌的鲸鱼2 分钟前
20.MySql数据库
运维·数据库·笔记·mysql·云计算·学习方法
_Kayo_3 分钟前
css 练习笔记1
前端·css·笔记
有Li3 分钟前
PISCO:用于改进动态MRI神经隐式k空间表示的自监督k空间正则化文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生
崇山峻岭之间4 分钟前
Matlab学习记录14
开发语言·学习·matlab
embrace9912 分钟前
【数据结构学习】数据结构和算法
c语言·数据结构·c++·学习·算法·链表·哈希算法
Zhuanshan_12 分钟前
服务器连接及训练问题
服务器·深度学习
峰顶听歌的鲸鱼16 分钟前
19.docker 图形化管理界面
运维·笔记·docker·容器·学习方法
童园管理札记26 分钟前
融传统文化于幼儿日常 育根魂少年于启蒙之时
经验分享·深度学习·创业创新·学习方法·微信公众平台
Lynnxiaowen28 分钟前
今天我们开始学习腾讯云产品介绍及功能概述与应用场景
学习·云计算·腾讯云
程序猿零零漆29 分钟前
Spring之旅 - 记录学习 Spring 框架的过程和经验(五)Spring的后处理器BeanFactoryPostProcessor
java·学习·spring