李宏毅机器学习-局部最小值与鞍点

一、Optimization Fails because ......

1. 问题

在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。

2. 原因:critical point(gradient为0)

a) 局部最小点(local minima)

b) 鞍点(saddle point)

二、Tayler Series Approximation(到底时local minima 还是saddle point)

1. 给定一组参数θ′,在θ′附近的L(θ)

2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。

第2项是〖(θ-θ')〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ'跟θ之间的差距。

第3项跟Hessian矩阵有关。第3项是(θ-θ' )^T H(θ-θ'),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。

  • 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
  • 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。

如下图所示,我们把(θ-θ')用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。

  • 如何判断是哪个和gradient 和Hessian有关系
  • 如果是saddle point的话,H可以告诉我们优化方向

总结

其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。

相关推荐
用户2527362781433 分钟前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩33 分钟前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent
用户018349301693 小时前
用Zustand管理AI多会话状态
人工智能
武子康5 小时前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent
aqi006 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
武子康7 小时前
调查研究-197 FAISS vs Elasticsearch 全面对比:从向量检索、全文搜索到 RAG 选型指南
人工智能·elasticsearch·agent
青禾网络7 小时前
Web 前端如何接入 AI 音效生成:从零到可用的完整方案
人工智能·设计模式
用户252736278147 小时前
【技术实战】用 Spring Boot + Vue3 + LM Studio 在本地跑通 RAG 知识库
人工智能
用户5191495848457 小时前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc