机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
Christo32 小时前
TFS-2018《On the convergence of the sparse possibilistic c-means algorithm》
人工智能·算法·机器学习·数据挖掘
汇能感知3 小时前
摄像头模块在运动相机中的特殊应用
经验分享·笔记·科技
阿巴Jun3 小时前
【数学】线性代数知识点总结
笔记·线性代数·矩阵
非门由也3 小时前
《sklearn机器学习——管道和复合估计器》回归中转换目标
机器学习·回归·sklearn
茯苓gao3 小时前
STM32G4 速度环开环,电流环闭环 IF模式建模
笔记·stm32·单片机·嵌入式硬件·学习
是誰萆微了承諾3 小时前
【golang学习笔记 gin 】1.2 redis 的使用
笔记·学习·golang
IMER SIMPLE4 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
DKPT4 小时前
Java内存区域与内存溢出
java·开发语言·jvm·笔记·学习
ST.J4 小时前
前端笔记2025
前端·javascript·css·vue.js·笔记
Suckerbin5 小时前
LAMPSecurity: CTF5靶场渗透
笔记·安全·web安全·网络安全