机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
郑同学zxc2 分钟前
Claude Code 的学习笔记
人工智能·笔记·学习
适应规律2 分钟前
深度学习第四版
人工智能·深度学习
八角Z9 分钟前
从行为惯性到正向认同:留守问题青年在数字社群中的风险机制与干预策略研究
科技·深度学习·创业创新
南境十里·墨染春水9 分钟前
C++笔记 继承中重载规则 公有私有继承的区别(面向对象)
开发语言·c++·笔记
好好学仿真9 分钟前
飞秒激光直写波导中的拓扑光子学:从SSH模型到高阶拓扑绝缘体(附论文解读)
机器学习·科研干货·nature子刊·拓扑光子学·光子集成·光学前沿·光学芯片
枫叶林FYL10 分钟前
MCP 实现深度技术报告
人工智能·深度学习
iiiiii1111 分钟前
【LLM学习笔记】Batch Normalization vs Layer Normalization,为什么 NLP 中使用 LN 而非 BN
笔记·深度学习·学习·语言模型·大模型·llm·transformer
今儿敲了吗12 分钟前
49| 枚举排列
数据结构·c++·笔记·学习·算法
智算菩萨12 分钟前
【Tkinter】14 事件处理机制深度解析:从基础绑定到高级传播,构建交互式绘图笔记应用
开发语言·笔记·python·microsoft·ui·ai编程·tkinter
老毛肚17 分钟前
云原生笔记
笔记