机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
快下雨了L2 小时前
C++面试笔记(持续更新...)
笔记
美狐美颜sdk2 小时前
直播美颜工具架构设计与性能优化实战:美颜SDK集成与实时处理
深度学习·美颜sdk·第三方美颜sdk·视频美颜sdk·美颜api
柃歌3 小时前
【UCB CS 61B SP24】Lecture 7 - Lists 4: Arrays and Lists学习笔记
java·数据结构·笔记·学习·算法
JANGHIGH3 小时前
c++ std::list使用笔记
c++·笔记·list
柃歌3 小时前
【UCB CS 61B SP24】Lecture 4 - Lists 2: SLLists学习笔记
java·数据结构·笔记·学习·算法
Fansv5874 小时前
深度学习-6.用于计算机视觉的深度学习
人工智能·深度学习·计算机视觉
大溪地C4 小时前
Git 合并冲突解决与状态分析笔记
笔记·git
deephub4 小时前
LLM高效推理:KV缓存与分页注意力机制深度解析
人工智能·深度学习·语言模型
BUG 劝退师4 小时前
C语言预处理学习笔记
c语言·笔记·学习
奋斗的袍子0075 小时前
Spring AI + Ollama 实现调用DeepSeek-R1模型API
人工智能·spring boot·深度学习·spring·springai·deepseek