机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
сокол17 分钟前
【网安-等保评测-基础记录】网络安全等级保护2.0 详解(定级、备案、测评、整改一站式指南)
网络·笔记·网络安全·云计算
Mr数据杨19 分钟前
韩语娱乐新闻评论偏见检测与内容审核优化
机器学习·数据分析·kaggle
LaughingZhu23 分钟前
Product Hunt 每日热榜 | 2026-04-18
人工智能·经验分享·深度学习·神经网络·产品运营
克里普crirp1 小时前
短波通信的可用频率计算方法
人工智能·算法·机器学习
__Wedream__2 小时前
NTIRE 2026 Challenge on Nighttime Image Dehazing——冠军方案解读
深度学习·计算机视觉·超分辨率重建·basicsr·nitre
哥布林学者2 小时前
深度学习进阶(九)池化技术的初步改进:RoI Pooling
机器学习·ai
qeen872 小时前
【算法笔记】模拟与高精度加减乘除
c++·笔记·算法·高精度·模拟
Mr数据杨2 小时前
多标签文本分类实战案例从 Kaggle TechNist 看小样本建模与落地
机器学习·数据分析·kaggle
gjhave3 小时前
强化学习论文(A3C)
人工智能·机器学习
roman_日积跬步-终至千里3 小时前
【深度学习】国科大:CIFAR-100 图像分类项目
人工智能·深度学习·分类