经典网络模型

Alexnet


VGG


VGG的启示

VGGNet采用了多次堆叠3x3的卷积核,这样做的目的是减少参数的数量。

例如,2个3x3的卷积核效果相当于1个5x5的卷积核效果,因为它们的感受野(输入图像上映射区域的大小)相同。但2个3x3卷积核的参数个数(18个)却比1个5x5(25个)的卷积核参数个数少。

类似地,3个3x3的卷积核相当于1个7x7的卷积核,而1个7x7的卷积核的参数个数为49,而3个3x3的卷积核的参数个数仅为27。

感受野


ResNet

为了解决深度神经网络存在的问题

· 层数越多,训练效果一定越好吗?

· 如何优化过深的神经网络?

· 如何避免梯度消失和梯度爆炸?

ResNet 即深度残差网络

ResNet使用了一种连接方式叫做"shortcut connection",顾名思义,shortcut就是"抄近道"的意思

ResNet模型引入残差网络结构,在两层或两层以上的节点两端添加了一条"捷径",这样一来,原来的输出F(x)就变成了F(x)+x

ResNet通过引入残差结构,我们就可以直接使用传统的反向传播对很深的神经网络进行训练,并且收敛速度快,误差小网络越深,梯度消失的现象就越来越明显,网络的训练效果也不好,这样的问题就称为"退化"

ResNet通过引入残差结构,很好地解决了"退化"问题,退化与过拟合都会使网络预测准确率降低,但两者并不是一回事

相关推荐
fanstuck6 分钟前
2025MCM美国大学生数学建模竞赛B题-可持续旅游管理思路详解+建模论文+源代码
人工智能·python·数学建模·数据挖掘·美赛
智能汽车人10 分钟前
自动驾驶---苏箐对智驾产品的思考
人工智能·机器学习·自动驾驶
Chatopera 研发团队1 小时前
Tensor 基本操作5 device 管理,使用 GPU 设备 | PyTorch 深度学习实战
人工智能·pytorch·深度学习
imoisture1 小时前
PyTorch中的movedim、transpose与permute
人工智能·pytorch·python·深度学习
Yuleave1 小时前
高效流式大语言模型(StreamingLLM)——基于“注意力汇聚点”的突破性研究
人工智能·语言模型·自然语言处理
cqbzcsq1 小时前
ESMC-600M蛋白质语言模型本地部署攻略
人工智能·语言模型·自然语言处理
刀客1232 小时前
python3+TensorFlow 2.x(四)反向传播
人工智能·python·tensorflow
SpikeKing2 小时前
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
人工智能·llm·预训练·scalinglaws·100b·deepnorm·egs
小枫@码3 小时前
免费GPU算力,不花钱部署DeepSeek-R1
人工智能·语言模型
liruiqiang053 小时前
机器学习 - 初学者需要弄懂的一些线性代数的概念
人工智能·线性代数·机器学习·线性回归