李宏毅机器学习-局部最小值与鞍点

一、Optimization Fails because ......

1. 问题

在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。

2. 原因:critical point(gradient为0)

a) 局部最小点(local minima)

b) 鞍点(saddle point)

二、Tayler Series Approximation(到底时local minima 还是saddle point)

1. 给定一组参数θ′,在θ′附近的L(θ)

2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。

第2项是〖(θ-θ')〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ'跟θ之间的差距。

第3项跟Hessian矩阵有关。第3项是(θ-θ' )^T H(θ-θ'),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。

  • 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
  • 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。

如下图所示,我们把(θ-θ')用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。

  • 如何判断是哪个和gradient 和Hessian有关系
  • 如果是saddle point的话,H可以告诉我们优化方向

总结

其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。

相关推荐
鸥梨菌Honevid10 分钟前
1. 机器学习基本知识(3)——机器学习的主要挑战
人工智能·机器学习
WeeJot嵌入式18 分钟前
神经网络的可解释性与欠拟合:平衡模型透明度与性能
人工智能·深度学习·神经网络
大多_C38 分钟前
`BertModel` 和 `BertForMaskedLM
人工智能·深度学习·机器学习
算家云40 分钟前
文生图模型开源之光!ComfyUI - AuraFlow本地部署教程
人工智能·文生图·开源模型·模型构建·算家云·算力租赁·auraflow
helloworld工程师42 分钟前
Dubbo的负载均衡及高性能RPC调用
java·大数据·人工智能
池央1 小时前
探索 LeNet-5:卷积神经网络的先驱与手写数字识别传奇
人工智能·神经网络·cnn
Captain823Jack1 小时前
w03_nlp大模型训练·处理字符串
人工智能·python·深度学习·神经网络·机器学习·自然语言处理·matplotlib
Gene_INNOCENT1 小时前
最近邻搜索 - 经典树型结构 M-Tree
人工智能·机器学习·最近邻搜索
芜湖_1 小时前
从〇开始深度学习(番外)——快速配置云服务器
服务器·人工智能·深度学习·pycharm·autodl
keira6741 小时前
【21天学习AI底层概念】day2 机器学习基础
人工智能·学习·机器学习