deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM)

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili
笔记先做到这hh,有的笨,当先了解了。

相关推荐
ma_ant7 分钟前
NLP-文本预处理
人工智能·自然语言处理
Hao想睡觉14 分钟前
深度学习之神经网络(二)
人工智能·深度学习·神经网络
Albert_Lsk1 小时前
【2025/07/16】GitHub 今日热门项目
人工智能·开源·github·开源协议
哔哥哔特商务网2 小时前
从12kW到800V,AI服务器电源架构变革下,功率器件如何解题?
服务器·人工智能·架构
灵智工坊LingzhiAI2 小时前
AI赋能农业:基于YOLO11的苹果瑕疵检测系统实战分享
人工智能
东临碣石822 小时前
【AI论文】基于反射生成模型的测试时动态缩放方法
人工智能
格林威2 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8模型实现人物识别(C#)
开发语言·人工智能·数码相机·yolo·计算机视觉·c#
京东零售技术2 小时前
大语言模型在电商定价中的实践
人工智能
爱学习的茄子2 小时前
前端路由深度解析:从 History API 到 React Router,彻底搞定 SPA 导航
前端·深度学习·react.js
Codebee2 小时前
OneCode 自治 UI 技术深度解析:架构设计、动态渲染与数据绑定
前端·人工智能·开源