机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14

Day 14 Classfication (short version)

二分类的时候 用sigmoid 那不就是 logistic 回归嘛(softmax 的二分类等价)

Loss

哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错
这里MSE离得很远的时候会梯度消失,致使训练变得困难;

tell me WHY?

非线性激活函数:当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。

但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 --- 因为本质上描述的是两个概率分布的差异

相关推荐
Xudde.1 小时前
班级作业笔记报告0x04
笔记·学习·安全·web安全·php
EDPJ1 小时前
当图像与文本 “各说各话” —— CLIP 中的模态鸿沟与对象偏向
深度学习·计算机视觉
大熊背2 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
zzh0813 小时前
MySQL高可用集群笔记
数据库·笔记·mysql
龙文浩_3 小时前
AI人工神经网络核心原理与深度学习机制解析
人工智能·深度学习·神经网络
绛橘色的日落(。・∀・)ノ4 小时前
Matplotlib实践学习笔记
笔记·学习
chase。4 小时前
【学习笔记】AGILE:把人形机器人强化学习从“玄学”变成“工程学”
笔记·学习·敏捷流程
AI医影跨模态组学4 小时前
J Immunother. Cancer(IF=10.6)南方医科大学南方医院等团队:基于病理组学的集成模型在胃癌免疫治疗反应预测中的开发与解读
人工智能·深度学习·机器学习·论文·医学·医学影像
久菜盒子工作室4 小时前
高等教育学|第一章高等教育概述
经验分享·笔记·课程设计
补三补四4 小时前
参数高效微调技术详解:理论基础与实践应用
人工智能·深度学习·机器学习