【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
翱翔的苍鹰13 分钟前
一个简单的法律问答机器人实现思路
人工智能·深度学习·语言模型·自然语言处理
lxl130713 分钟前
学习C++(7)初始化列表+隐式类型转换
学习
林深现海17 分钟前
【刘二大人】PyTorch深度学习实践笔记 —— 第三集:梯度下降(凝练版)
pytorch·笔记·深度学习
悠哉悠哉愿意26 分钟前
【物联网学习笔记】按键
笔记·单片机·嵌入式硬件·物联网·学习
EW Frontier32 分钟前
【ISAC+抗干扰+信号识别】5G ISAC+深度学习!破解智能交通“自干扰”难题,V2X通信准确率近100%【附代码】
人工智能·深度学习·5g·调制识别·抗干扰·isac
QUDONG_biubiubiu32 分钟前
DeepSeek推出OCR 2模型!瞄准高难度文档识别
人工智能·深度学习·deepseek·deepseek-ocr 2
愚者游世33 分钟前
list Initialization各版本异同
开发语言·c++·学习·程序人生·算法
szcsun533 分钟前
机器学习(四)--无监督学习
人工智能·学习·机器学习
.小墨迹35 分钟前
apollo中车辆的减速绕行,和加速超车实现
c++·学习·算法·ubuntu·机器学习
三水不滴36 分钟前
对比一下RabbitMQ和RocketMQ
经验分享·笔记·分布式·rabbitmq·rocketmq