机器学习和深度学习--李宏毅(笔记与个人理解)Day11-12

Day11 when gradient is small......


怎么知道是局部小 还是鞍点?

using Math
这里巧妙的说明了hessan矩阵可以决定一个二次函数的凹凸性 也就是 θ \theta θ 是min 还是max,最后那个有些有些 哈 是一个saddle;

然后这里只要看hessan矩阵是不是正定的就好(详见 线性代数)

example -- using Hessan

奇怪这里为什么不是主对角线呀,难道两个都一样嘛 晕死,得复习线代了

Dont afraid of saddle point(鞍点)

征向量 u 和对应的特征值 λ定义为满足下列关系的向量和标量:Hu=λu

在梯度下降算法中,我们希望选择使得 L*(*θ) 减小的 θ 方向。如果 λ<0,则向 u 的方向移动参数 θ 会减小损失函数 L(θ)。

换句话说,如果我们发现了一个负特征值λ 和相应的特征向量u,我们可以通过沿着 u 的方向更新 θ 来降低损失函数的值。这就是图中所说的"Decrease L"的含义。

local minima VS saddle Point


引入高维空间的观点,解决local minima的问题:我们很少遇到local minima;

Day12 Tips for training :Batch and Momentum

why we use batch?

前面有讲到这里, 前倾回归

这里大家记得问自己一个问题:一个epoch 更新多少个参数?nums(batch)* parameters

例如,如果你有100个batch,那么在完成一个epoch后,每个参数会被更新100次。

shuffle :有可能batch结束后,就会重新分一次batch

small vs big

这里举了两个极端的例子,也是我们常见的学习方法:取极限看效果

未考虑平行运算(并行 --gpu)



over fitting: 比较train 和test

Aspect Small Batch Size(100个样本) Large Batch Size(10000个样本)
Speed for one update (no parallel) Faster Slower
Speed for one update (with parallel) Same Same (not too large)
Time for one epoch Slower Faster
Gradient Noisy Stable
Optimization Better Worse
Generalization Better Worse

batch is a hyperparameter......

Momentum

惯性

知道学到这里想到什么嘛......粒子群算法的公式不知道你们有没有了解,看下面那个w*vi 有没有感觉这种思想还挺常见的,用来做局部最小值的优化的


concluding:

相关推荐
JackHCC3 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
Token炼金师6 小时前
幂律的预言:Kaplan 与 Chinchilla 的算力账本 —— Scaling Laws 与最优配比
人工智能·深度学习·大模型架构·kv cache·scaling laws
星马梦缘7 小时前
机器学习与模式识别 第八章 MAP与偏方差 考点压缩
人工智能·机器学习·map·岭回归·mle·双重下降
一楼的猫7 小时前
AI写作合规技术方案:平台检测机制分析与规避策略
人工智能·学习·机器学习·ai写作
星马梦缘8 小时前
机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩
人工智能·机器学习·微分·反向传播
四月天438 小时前
web安全-SSTI(服务器模板注入)
笔记·学习·web安全·网络安全
星马梦缘9 小时前
机器学习与模式识别 第十六章 Transformers 考点压缩
人工智能·机器学习·cnn·transformer·attention·注意力机制·mlp
触底反弹9 小时前
🔥 从点积到 Transformer:我终于搞懂大模型是怎么"猜"出下一个词的了
人工智能·机器学习·架构
Token炼金师9 小时前
算力显存通信的三角博弈:DP/TP/PP/SP、ZeRO、混合精度与稳定性 —— 训练优化四件套
人工智能·深度学习·dp·sp·pp·zero·tp
疯狂打码的少年9 小时前
【操作系统】虚拟存储管理(局部性原理、缺页中断)
笔记