【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)

做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。

如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。

当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如 θ ′ \theta ' θ′,其附近的损失函数用泰勒级数近似写出来。
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)

算出一个海森矩阵后,不需要把它跟所有的 ( θ − θ ′ ) (\theta-{\theta}') (θ−θ′)都乘乘看,只要看海森矩阵 H H H的特征值。若 H H H的所有特征值都是正的, H H H为正定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) > 0 (\theta-{\theta}')^TH(\theta-{\theta}')>0 (θ−θ′)TH(θ−θ′)>0,临界点是局部极小值。若 H H H的所有特征值都是负的, H H H为负定矩阵,则 ( θ − θ ′ ) T H ( θ − θ ′ ) < 0 (\theta-{\theta}')^TH(\theta-{\theta}')<0 (θ−θ′)TH(θ−θ′)<0,临界点是局部极大值。若 H H H的特征值有正有负,临界点是鞍点。

相关推荐
木头程序员1 分钟前
生成式AI可靠性与可控性技术研究:从真实性到可控编辑
图像处理·人工智能·深度学习·机器学习·计算机视觉·语言模型
henujolly3 分钟前
命令行里输入 `vite`,发生了什么
学习
小棠师姐4 分钟前
深度学习入门:神经网络的基本结构与工作原理
深度学习·神经网络·python编程·反向传播算法·神经网络入门
好奇龙猫6 分钟前
【AI学习-comfyUI学习-三十三节-FLXUcontrolnet canny(UNion)+canny(xlabs)工作流-各个部分学习】
人工智能·学习
万里不留行7 分钟前
【LangChain V1.0学习】第二课:批处理与持久化对话(通过完成情感机器人多轮对话进行学习)
人工智能·python·学习·语言模型·langchain
啵啵鱼爱吃小猫咪9 分钟前
机器人示教学习入门介绍
人工智能·学习·机器人
菜鸟江多多11 分钟前
【国内首款STM32 Zephyr RTOS学习套件】
stm32·嵌入式硬件·学习
芸简新章15 分钟前
Node.js学习阶段总结-阶段2
学习·node.js
笑鸿的学习笔记20 分钟前
git笔记之默认使用vim以及修改倒数第二次的commit提交信息到远程
笔记·git·vim
落雨盛夏23 分钟前
深度学习|李哥0
人工智能·深度学习