李宏毅机器学习-局部最小值与鞍点

一、Optimization Fails because ......

1. 问题

在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。

2. 原因:critical point(gradient为0)

a) 局部最小点(local minima)

b) 鞍点(saddle point)

二、Tayler Series Approximation(到底时local minima 还是saddle point)

1. 给定一组参数θ′,在θ′附近的L(θ)

2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。

第2项是〖(θ-θ')〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ'跟θ之间的差距。

第3项跟Hessian矩阵有关。第3项是(θ-θ' )^T H(θ-θ'),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。

  • 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
  • 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。

如下图所示,我们把(θ-θ')用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。

  • 如何判断是哪个和gradient 和Hessian有关系
  • 如果是saddle point的话,H可以告诉我们优化方向

总结

其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。

相关推荐
深蓝易网28 分钟前
为什么制造企业需要用MES管理系统升级改造车间
大数据·运维·人工智能·制造·devops
xiangzhihong836 分钟前
Amodal3R ,南洋理工推出的 3D 生成模型
人工智能·深度学习·计算机视觉
狂奔solar1 小时前
diffusion-vas 提升遮挡区域的分割精度
人工智能·深度学习
资源大全免费分享1 小时前
MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!
人工智能·macos·策略模式
跳跳糖炒酸奶1 小时前
第四章、Isaacsim在GUI中构建机器人(2):组装一个简单的机器人
人工智能·python·算法·ubuntu·机器人
AI.NET 极客圈1 小时前
AI与.NET技术实操系列(四):使用 Semantic Kernel 和 DeepSeek 构建AI应用
人工智能·.net
Debroon1 小时前
应华为 AI 医疗军团之战,各方动态和反应
人工智能·华为
俊哥V2 小时前
阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B
人工智能·ai
果冻人工智能2 小时前
每一条广告都只为你而生: 用 人工智能 颠覆广告行业的下一步
人工智能
掘金安东尼2 小时前
GPT-4.5 被 73% 的人误认为人类,“坏了?!我成替身了!”
人工智能·程序员