李宏毅机器学习-局部最小值与鞍点

一、Optimization Fails because ......

1. 问题

在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。

2. 原因:critical point(gradient为0)

a) 局部最小点(local minima)

b) 鞍点(saddle point)

二、Tayler Series Approximation(到底时local minima 还是saddle point)

1. 给定一组参数θ′,在θ′附近的L(θ)

2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。

第2项是〖(θ-θ')〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ'跟θ之间的差距。

第3项跟Hessian矩阵有关。第3项是(θ-θ' )^T H(θ-θ'),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。

  • 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
  • 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。

如下图所示,我们把(θ-θ')用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。

  • 如何判断是哪个和gradient 和Hessian有关系
  • 如果是saddle point的话,H可以告诉我们优化方向

总结

其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。

相关推荐
147API3 分钟前
Claude进入受监管系统前,接入层应该先怎么设计
人工智能
Szime5 分钟前
深智微:面向汽车电子与工业控制的电子元器件原装现货服务商
人工智能·汽车
gis分享者6 分钟前
Claude Code 接入蓝耘 GLM-5.1:终端 AI 编程助手配置实战
人工智能·ai·实战·claude·cc·接入glm
企学宝9 分钟前
央国企数字化培训升级路径:学分制+AI评卷的全新实践
人工智能·企业培训·公司内训
三更两点9 分钟前
AI拉呱-2026年06月12日AI技术洞察简报
人工智能
终端域名11 分钟前
AI与区块链融合:加密货币的下一前沿——技术架构、企业价值与未来趋势
人工智能·架构·区块链
lauo12 分钟前
ibbot青春版:当腾讯AI“换船”,一部手机如何成为你的Token“私矿”?
大数据·人工智能·chatgpt·智能手机·ai-native
yzqy_17 分钟前
AMD AI 开发者计划学习笔记:从 ROCm 到 Ryzen AI,理解 AMD 的 AI 开发生态
人工智能·笔记·学习·datawhale·amdev
老虾头20 分钟前
合规化背景下,本地私有 AI 成为行业主流发展方向
大数据·人工智能
行业研究员21 分钟前
腾讯会议同传功能实测与选型建议
大数据·人工智能·腾讯会议·腾讯会议会议同传