ResNet-阅读

目录

研究背景

[捷径连接的 "零成本" 特性](#捷径连接的 “零成本” 特性)

模型结构设计

[3. 下采样方式(把特征图的「空间尺寸变小」(高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征)](#3. 下采样方式(把特征图的「空间尺寸变小」(高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征))


研究背景

  • 深度对 CNN 的重要性 :CNN 的特征表达能力随网络深度提升(低 / 中 / 高层特征由堆叠层数决定),VGG/GoogLeNet 等证明「更深的网络」是视觉任务的核心方向;
  • 深度学习的长期难题 :并非层数越多性能越好 ------ 当网络深度超过一定阈值后,会出现退化问题(Degradation) :训练误差和测试误差均显著上升,且不是过拟合导致(加层后训练误差直接升高);
  • 传统方法的局限性 :归一化初始化、BatchNorm 等已解决梯度消失 / 爆炸 问题,让深层网络能收敛,但退化问题仍未解决,成为阻碍 CNN 继续加深的核心瓶颈;
    明确一个道理,多层线形=单层线性,神经网络必须靠非线形才能学习到复杂世界,因此采用非线性,但是要是非线性要是表示恒等映射,就是把权重,偏置,激活都调节到刚好抵消

普通网络学的是「从输入到最终输出的完整映射」,ResNet 学的是「最终输出和原始输入的差值(残差)」

捷径连接的 "零成本" 特性
  • 无额外参数:恒等捷径连接只是将输入 x 直接传递,不需要学习任何新权重。
  • 无额外计算:逐元素相加是极低成本的操作,在工程上可忽略不计。
  • 这保证了 ResNet 与同结构的普通网络在参数规模、计算量上完全公平可比,实验结论更有说服力。

维度匹配问题与线性投影

  • 维度相等时:直接用恒等捷径 y=F+x,最简单高效。
  • 维度不等时 (如通道数变化、特征图尺寸下采样):
    • 无法直接逐元素相加,需要对 x 做线性投影 Ws 来对齐维度。
    • Ws 通常用 1×1 卷积实现(既改变通道数,又可实现下采样),会引入少量参数和计算量,但仍是高效的。
    • 公式 (2) 是维度不匹配时的通用形式。

模型结构设计

继承 VGG 的核心思想:全部使用 3×3 小卷积核,保证感受野与特征表达能力

规则 目的
同尺寸特征图 → 同卷积核数 保证特征表达的一致性,避免通道数混乱
特征图尺寸减半 → 卷积核数翻倍 平衡计算量:空间尺寸减半 → 通道数翻倍,保证每层计算量(H×W×C)基本不变
3. 下采样方式(把特征图的「空间尺寸变小」 (高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征)
  • 直接用步长为 2 的卷积层实现下采样,替代池化层,避免池化带来的信息丢失;
  • 下采样时同步翻倍卷积核数,保证计算效率。
  • Max Pooling:在 2×2 窗口里只保留最大值,丢弃其他 3 个值;
  • Average Pooling:把 2×2 窗口里 4 个值取平均,相当于模糊化。
  • 卷积下采样:用一个 3×3 卷积核去扫,每个 2×2 块的输出是 "加权和",会综合考虑所有像素的贡献,而不是只留一个。

4. 末端结构 - 全局平均池化(

  • **GAP: 网络末端接全局平均池化层和 1000 类的全连接 + Softmax 层,**替代传统全连接层,将特征图压缩为一维向量,大幅减少参数量,抑制过拟合;
  • 1000 类全连接 + Softmax:适配 ImageNet 1000 分类任务。
相关推荐
Sunshine for you1 小时前
使用Python分析你的Spotify听歌数据
jvm·数据库·python
2401_884563241 小时前
用Python读取和处理NASA公开API数据
jvm·数据库·python
2301_793804692 小时前
用Python制作一个文字冒险游戏
jvm·数据库·python
动物园猫2 小时前
7种交通场景目标检测数据集分享(适用于YOLO系列深度学习检测任务)
深度学习·yolo·目标检测
chushiyunen2 小时前
python cosyVoice实现tts文本转语音、音频(未完成)
开发语言·python·音视频
dapeng28702 小时前
用Python破解简单的替换密码
jvm·数据库·python
setmoon2142 小时前
Python数据库操作:SQLAlchemy ORM指南
jvm·数据库·python
sqyno1sky2 小时前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
2401_884563242 小时前
Django全栈开发入门:构建一个博客系统
jvm·数据库·python