机器学习和深度学习-- 李宏毅（笔记与个人理解）Day 14

靴子学长2024-04-13 9:39

Day 14 Classfication (short version)

二分类的时候用sigmoid 那不就是 logistic 回归嘛（softmax 的二分类等价）

Loss

哦今天刚学的，KL散度，看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失，致使训练变得困难；

tell me WHY？

非线性激活函数：当使用非线性激活函数（如Sigmoid或Tanh）时，在输入值非常大或非常小的情况下，这些激活函数的梯度会接近于零。因此，如果在MSE损失函数的情况下，预测值与目标值之间的差异很大，经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异