李宏毅机器学习-局部最小值与鞍点

一、Optimization Fails because ......

1. 问题

在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。

2. 原因:critical point(gradient为0)

a) 局部最小点(local minima)

b) 鞍点(saddle point)

二、Tayler Series Approximation(到底时local minima 还是saddle point)

1. 给定一组参数θ′,在θ′附近的L(θ)

2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。

第2项是〖(θ-θ')〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ'跟θ之间的差距。

第3项跟Hessian矩阵有关。第3项是(θ-θ' )^T H(θ-θ'),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。

  • 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
  • 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。

如下图所示,我们把(θ-θ')用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。

  • 如何判断是哪个和gradient 和Hessian有关系
  • 如果是saddle point的话,H可以告诉我们优化方向

总结

其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。

相关推荐
3DVisionary几秒前
3D-DIC与机器学习协同模拟材料应力-应变本构行为研究
人工智能·机器学习·3d·3d-dic技术 机器学习·应力-应变本构行为·卷积神经网络(ecnn)·数字图像相关法(dic)
神经星星2 分钟前
无需预对齐即可消除批次效应,东京大学团队开发深度学习框架STAIG,揭示肿瘤微环境中的详细基因信息
人工智能·深度学习·机器学习
神经星星3 分钟前
【vLLM 学习】调试技巧
人工智能·机器学习·编程语言
呵呵哒( ̄▽ ̄)"3 分钟前
线性代数:同解(1)
python·线性代数·机器学习
SweetCode8 分钟前
裴蜀定理:整数解的奥秘
数据结构·python·线性代数·算法·机器学习
程序员Linc21 分钟前
写给新人的深度学习扫盲贴:向量与矩阵
人工智能·深度学习·矩阵·向量
xcLeigh29 分钟前
OpenCV从零开始:30天掌握图像处理基础
图像处理·人工智能·python·opencv
果冻人工智能32 分钟前
如何有效应对 RAG 中的复杂查询?
人工智能
2305_7978820941 分钟前
AI识图小程序的功能框架设计
人工智能·微信小程序·小程序
果冻人工智能43 分钟前
向量搜索中常见的8个错误(以及如何避免它们)
人工智能