机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
人工智能AI酱24 分钟前
【AI深究】高斯混合模型(GMM)全网最详细全流程详解与案例(附Python代码演示) | 混合模型概率密度函数、多元高斯分布概率密度函数、期望最大化(EM)算法 | 实际案例与流程 | 优、缺点分析
人工智能·python·算法·机器学习·分类·回归·聚类
Piar1231sdafa27 分钟前
深度学习目标检测算法之YOLOv26加拿大鹅检测
深度学习·算法·目标检测
我是小疯子6628 分钟前
HybridA*算法:高效路径规划核心解析
人工智能·算法·机器学习
晨非辰28 分钟前
【数据结构入坑指南(三.1)】--《面试必看:单链表与顺序表之争,读懂“不连续”之美背后的算法思想》
数据结构·c++·人工智能·深度学习·算法·机器学习·面试
山岚的运维笔记32 分钟前
SQL Server笔记 -- 第53章:INSERT 第54章:主键
数据库·笔记·sql·microsoft·sqlserver
MaoziShan2 小时前
CMU Subword Modeling | 08 Non-Concatenative Morphological Processes
人工智能·机器学习·语言模型·自然语言处理
weixin_448119942 小时前
Datawhale 大模型算法全栈基础篇 202602第1次笔记
笔记
柳鲲鹏2 小时前
股市赚钱学概论:自序
笔记
肾透侧视攻城狮2 小时前
《掌握 tf.data API:从 Dataset 创建、map/batch/shuffle 操作到预取/缓存优化的完整实战》
人工智能·深度学习·tensorflow·tf.data api·dataset 对象·map/batch/shuff·预取/并行化/缓存机制
烟花落o2 小时前
算法的时间复杂度和空间复杂度
开发语言·数据结构·笔记·算法