机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
路小雨~17 分钟前
Transformer架构学习笔记:从数学推导到工程实现与主流变体
笔记·ai·transformer
chaser&upper34 分钟前
【一起啃西瓜书】机器学习-期末复习(不挂科)
人工智能·机器学习·期末复习·学霸笔记
瓜瓜学Java36 分钟前
机器学习深度学习基础速成
人工智能·机器学习
d3y138 分钟前
机器学习之策略梯度
人工智能·机器学习·策略梯度·policy gradient
希潭实验室39 分钟前
第136篇:美国NSA的苹果手机“三角测量“后门的窃密模块分析 | 机器学习引擎识别照片信息
人工智能·机器学习·智能手机
call me Mike39 分钟前
双重机器学习之因果推断 | CATE条件平均处理效应估计:五大方法原理详解与模拟数据实战(python版)
人工智能·机器学习
绝不原创的飞龙40 分钟前
使用机器学习和数学预测美国 GDP
人工智能·机器学习
Zero40 分钟前
机器学习微积分--(1)核心思想
人工智能·算法·机器学习
科学创新前沿1 小时前
物理信息神经网络:从数据驱动到物理嵌入的科学计算新范式!
人工智能·深度学习·dft·pinn·流体力学·固体力学·断裂力学
有Li1 小时前
一种病理学内容感知变速率学习图像压缩框架 (PathoLIC)/文献速递-多模态应用技术
人工智能·深度学习·算法·计算机视觉·医学生