【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
羊小猪~~5 分钟前
数据库学习笔记(十五)--变量与定义条件与处理程序
数据库·人工智能·笔记·后端·sql·学习·mysql
梦境虽美,却不长10 分钟前
数据结构 线性表 学习 2025/6/12 21点27分
数据结构·学习
霸王蟹31 分钟前
带你手写React中的useReducer函数。(底层实现)
前端·javascript·笔记·学习·react.js·typescript·前端框架
Humbunklung39 分钟前
分布假设学习笔记
笔记·深度学习·学习
知舟不叙1 小时前
深度学习——基于PyTorch的MNIST手写数字识别详解
人工智能·pytorch·深度学习·手写数字识别
嵌入式@秋刀鱼1 小时前
《 第三章-招式初成》 C++修炼生涯笔记(基础篇)程序流程结构
linux·开发语言·数据结构·c++·笔记·visual studio code
HaiQinyanAN1 小时前
【学习笔记】重载和重写的注意事项
c++·笔记·学习
梦境虽美,却不长2 小时前
C语言 学习 文件操作(开关,读写,定位,大小)操作 2025年6月8日12:19:24
c语言·开发语言·学习
yifa201604042 小时前
STM32、Arduino和51单片机
stm32·学习·51单片机
Crabfishhhhh4 小时前
神经网络学习-神经网络简介【Transformer、pytorch、Attention介绍与区别】
pytorch·python·神经网络·学习·transformer