deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM)

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili
笔记先做到这hh,有的笨,当先了解了。

相关推荐
欣赏你流浪^1 小时前
基于DeepLabv3+的海洋遥感海冰智能识别:语义分割技术与实验验证
人工智能·深度学习·计算机视觉
爆改模型1 小时前
【CVPR2025】计算机视觉|PX:让模型训练“事半功倍”!
人工智能·计算机视觉
weixin_446260855 小时前
轻松实现浏览器自动化——AI浏览器自动化框架Stagehand
运维·人工智能·自动化
张子夜 iiii6 小时前
(0️⃣基础)程序控制语句(初学者)(第3天)
人工智能·python
xiaoxiaoxiaolll6 小时前
双驱智造革命:物理方程+工业数据训练,突破增材制造温度场预测瓶颈
人工智能·深度学习·学习·制造
CareyWYR7 小时前
高效智能体设计:如何在不牺牲效果的前提下降低成本?
人工智能
Sui_Network8 小时前
Walrus 与 Pipe Network 集成,提升多链带宽并降低延迟
人工智能·web3·区块链·智能合约·量子计算
攻城狮7号8 小时前
GPT-OSS重磅开源:当OpenAI重拾“开放”初心
人工智能·openai·开源大模型·gpt-oss
我不是小upper8 小时前
什么是键值缓存?让 LLM 闪电般快速
人工智能·缓存·llm