论文精读ResNet: Deep Residual Learning for Image Recognition

1 基础背景

论文链接:https://arxiv.org/abs/1512.03385

Github链接:https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

知乎讲解:ResNet论文笔记及代码剖析

2 Motivation

对于深度神经网络来说,深度对于模型性能至关重要。网络层数越深:

(1)越容易导致梯度消失或梯度爆炸 gradient vanishing/exploding;

(2)越容易出现性能恶化degradation:准确率达到峰值后迅速下降。

3 解决方法

把输入直接加到输出上,即shortcut connection。残差网络的意思是输出-输入的那部分网络模型。

对于神经网络来说,它对于相同映射identity mapping之外的扰动更容易学习,而不是identity mapping本身。相同映射就是【输入=输出】。

如果输入输出维度不同,可以采用zero-padding补零/projection映射,将其维度改变。

4 结论

shortcut connection没有引入新的参数,也没有额外增加计算复杂度。

在ImageNet中,不shortcut connection的网络(论文中叫plain network)34层的训练误差高于18层的,而残差版的34层低于18层。

验证误差同样很小,说明泛化能力较强。

残差网络初期收敛更快,最终收敛效果更好。

对于层数非常深(>50)的网络,可以采用瓶颈bottleneck模型,使用卷积将其维度先降低,提取关键特征,再升高,这样可以有效降低算力需求,由此可以诞生101层,152层的网络,其算力需求仍低于VGG。(具体为什么是101/152,作者并没有说明,李沐分析可能是调试调出来)

projection引入了新的参数,不适用于瓶颈模型,使用identity mapping更好。

5 知识补充

top1 error

将模型输出中最大概率的结果作为最终分类结果,计算得到的错误率,该指标衡量了模型的准确程度,同理还有top5 error;

相关推荐
FlagOS智算系统软件栈1 天前
全球 PyTorch 大会与 Triton 大会释放强信号:算子语言繁荣和分化背后,编译器核心地位日益凸显
人工智能·pytorch·python·科技·深度学习·ai·开源
Qiuner1 天前
大模型请求/响应参数完全拆解:每个字段都是什么意思?
阿里云·大模型·llm·请求·apifox
来酱何人1 天前
为什么要学深度学习?——从“传统编程”到“数据驱动”的思维跃迁(附AI落地案例)
人工智能·python·深度学习·机器翻译
昵称是6硬币1 天前
YOLO26论文精读(逐段解析)
人工智能·深度学习·yolo·目标检测·计算机视觉·yolo26
胡桃姓胡,蝴蝶也姓胡1 天前
Rag优化 - 如何提升首字响应速度
后端·大模型·rag
小冷爱读书1 天前
F-INR: Functional Tensor Decomposition for Implicit Neural Representations
深度学习·inr·函数张量分解
浣熊-论文指导1 天前
聚类与Transformer融合的六大创新方向
论文阅读·深度学习·机器学习·transformer·聚类
小马过河R1 天前
AIGC视频生成之Deepseek、百度妙笔组合实战小案例
人工智能·深度学习·计算机视觉·百度·aigc
东经116度1 天前
生成对抗网络(GAN)
深度学习·gan·模式崩塌
王哈哈^_^1 天前
【数据集】【YOLO】【目标检测】农作物病害数据集 11498 张,病害检测,YOLOv8农作物病虫害识别系统实战训推教程。
人工智能·深度学习·算法·yolo·目标检测·计算机视觉·1024程序员节