deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM)

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili
笔记先做到这hh,有的笨,当先了解了。

相关推荐
嵌入式老牛27 分钟前
OpenCV与MFC混合编程中的图像格式转换研究
人工智能·opencv·mfc
Raink老师6 小时前
【AI面试临阵磨枪】Harness 的环境隔离(沙箱)如何设计?文件、网络、命令、权限四层隔离?
人工智能·ai 面试
人工智能AI技术6 小时前
Python 断言 assert 基础用法
人工智能
我是发哥哈7 小时前
横向评测:五款主流AI培训课程效果与选型分析
人工智能
GetcharZp7 小时前
告别昂贵显卡!llama.cpp 终极指南:在你的电脑上满速运行大模型!
人工智能
AI木马人7 小时前
3.【Prompt工程实战】如何设计一个可复用的Prompt系统?(避免每次手写提示词)
linux·服务器·人工智能·深度学习·prompt
Agent产品评测局7 小时前
临床前同源性反应种属筛选:利用AI Agent加速筛选的实操方案 —— 2026企业级智能体选型与技术落地指南
人工智能·ai·chatgpt
ting94520007 小时前
HunyuanOCR 全方位深度解析
人工智能·架构
woai33647 小时前
AI通识-大模型的原理&应用
人工智能
头发够用的程序员8 小时前
从滑动窗口到矩阵运算:img2col算法基本原理
人工智能·算法·yolo·性能优化·矩阵·边缘计算·jetson