deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM)

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili
笔记先做到这hh,有的笨,当先了解了。

相关推荐
hai3152475439 分钟前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
猿饵块16 分钟前
LibreOffice---文档制作
人工智能
硅谷秋水20 分钟前
HARBOR:一个面向具身智体机器人强化学习的驾驭框架
人工智能·深度学习·机器学习·机器人
Mr..Jackey25 分钟前
瑞佑 RUI Builder 图形化 UI 设计工具
arm开发·人工智能·单片机·ui·人机交互·ra8889·lcd控制芯片
霍格沃兹测试开发学社测试人社区30 分钟前
Skills实战:从0到1封装一个“登录鉴权”Skill,拿来即用
人工智能
EasyCVR41 分钟前
国标GB28181视频监控平台EasyCVR夏季安防高风险场景的解决方案
人工智能·音视频
美狐美颜SDK开放平台1 小时前
直播APP开发与第三方美颜SDK开发/集成实践分享
人工智能·美颜sdk·直播美颜sdk·视频美颜sdk·美颜api
邵宇然1 小时前
llama.cpp 推理底座调优:从 KV Cache 到连续批处理的性能深潜
人工智能
云安全助手1 小时前
Anthropic年度报告解读:AI重塑网络攻击形态,传统防御体系亟待升级
人工智能·安全·网络安全·ai大模型