【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
专注于大数据技术栈几秒前
java学习--什么是线程安全和不安全
java·学习·安全
Engineer邓祥浩1 分钟前
设计模式学习(13) 23-11 享元模式
学习·设计模式·享元模式
week_泽3 分钟前
第3课:构建AI代理系统面临的挑战 - 学习笔记_3
人工智能·笔记·学习·ai agent
week_泽6 分钟前
第8课:LangGraph Memory管理机制与实现方案 - 学习笔记_8
java·笔记·学习·ai agent
南屿欣风10 分钟前
Spring Cloud Gateway 路由表配置
笔记
AI即插即用15 分钟前
超分辨率重建 | 2025 FIWHN:轻量级超分辨率 SOTA!基于“宽残差”与 Transformer 混合架构的高效网络(代码实践)
图像处理·人工智能·深度学习·计算机视觉·transformer·超分辨率重建
这张生成的图像能检测吗18 分钟前
(论文速读)Set Transformer: 一种基于注意的置换不变神经网络框架
人工智能·深度学习·神经网络·计算机视觉·transformer
MhZhou041220 分钟前
开源 动态课程学习的单细胞聚类
学习
Flamingˢ23 分钟前
Verilog中reg与wire的区别:从语法到实战
学习·fpga开发·硬件工程
heartbeat..23 分钟前
Spring Boot 学习:原理、注解、配置文件与部署解析
java·spring boot·学习·spring