机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
aidesignplus12 小时前
从平方到线性:Mamba如何挑战Transformer的长序列效率瓶颈?
人工智能·python·深度学习·vim·transformer
李李李勃谦13 小时前
基于鸿蒙PC多窗口特性的笔记管理工具开发实践
笔记·华为·harmonyos
数据牧羊人的成长笔记13 小时前
机器学习预备知识
人工智能·机器学习
人工智能培训13 小时前
大模型部署资源不足?轻量化部署解决方案
人工智能·机器学习·prompt·agent·智能体
智者知已应修善业13 小时前
【触发器种类和真值表】2023-7-5
驱动开发·经验分享·笔记·硬件架构·硬件工程
深蓝海拓13 小时前
Qt:创建一套基于HSL颜色体系的颜色库
笔记·python·qt·学习·ui
AI医影跨模态组学14 小时前
Ann Oncol(IF=65.4)广东省人民医院放射科刘再毅&阿里巴巴达摩院等团队:基于非增强CT与深度学习的结直肠癌检测
人工智能·深度学习·论文·医学影像
数智工坊14 小时前
【Anchor DETR论文阅读】:基于锚点查询设计的Transformer检测器,50epoch收敛且速度精度双升
论文阅读·深度学习·transformer
Magic-Yuan14 小时前
算力的迷雾
人工智能·算法·机器学习
Hello未来14 小时前
llamafactory 的使用和安装
python·深度学习·语言模型·自然语言处理·nlp