ResNet-阅读

目录

研究背景

[捷径连接的 "零成本" 特性](#捷径连接的 “零成本” 特性)

模型结构设计

[3. 下采样方式(把特征图的「空间尺寸变小」(高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征)](#3. 下采样方式(把特征图的「空间尺寸变小」(高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征))


研究背景

  • 深度对 CNN 的重要性 :CNN 的特征表达能力随网络深度提升(低 / 中 / 高层特征由堆叠层数决定),VGG/GoogLeNet 等证明「更深的网络」是视觉任务的核心方向;
  • 深度学习的长期难题 :并非层数越多性能越好 ------ 当网络深度超过一定阈值后,会出现退化问题(Degradation) :训练误差和测试误差均显著上升,且不是过拟合导致(加层后训练误差直接升高);
  • 传统方法的局限性 :归一化初始化、BatchNorm 等已解决梯度消失 / 爆炸 问题,让深层网络能收敛,但退化问题仍未解决,成为阻碍 CNN 继续加深的核心瓶颈;
    明确一个道理,多层线形=单层线性,神经网络必须靠非线形才能学习到复杂世界,因此采用非线性,但是要是非线性要是表示恒等映射,就是把权重,偏置,激活都调节到刚好抵消

普通网络学的是「从输入到最终输出的完整映射」,ResNet 学的是「最终输出和原始输入的差值(残差)」

捷径连接的 "零成本" 特性
  • 无额外参数:恒等捷径连接只是将输入 x 直接传递,不需要学习任何新权重。
  • 无额外计算:逐元素相加是极低成本的操作,在工程上可忽略不计。
  • 这保证了 ResNet 与同结构的普通网络在参数规模、计算量上完全公平可比,实验结论更有说服力。

维度匹配问题与线性投影

  • 维度相等时:直接用恒等捷径 y=F+x,最简单高效。
  • 维度不等时 (如通道数变化、特征图尺寸下采样):
    • 无法直接逐元素相加,需要对 x 做线性投影 Ws 来对齐维度。
    • Ws 通常用 1×1 卷积实现(既改变通道数,又可实现下采样),会引入少量参数和计算量,但仍是高效的。
    • 公式 (2) 是维度不匹配时的通用形式。

模型结构设计

继承 VGG 的核心思想:全部使用 3×3 小卷积核,保证感受野与特征表达能力

规则 目的
同尺寸特征图 → 同卷积核数 保证特征表达的一致性,避免通道数混乱
特征图尺寸减半 → 卷积核数翻倍 平衡计算量:空间尺寸减半 → 通道数翻倍,保证每层计算量(H×W×C)基本不变
3. 下采样方式(把特征图的「空间尺寸变小」 (高度 H、宽度 W 缩小),同时保留关键特征,是 CNN 里的核心操作。压缩空间分辨率、扩大感受野、降低计算量,让网络关注更全局的语义特征)
  • 直接用步长为 2 的卷积层实现下采样,替代池化层,避免池化带来的信息丢失;
  • 下采样时同步翻倍卷积核数,保证计算效率。
  • Max Pooling:在 2×2 窗口里只保留最大值,丢弃其他 3 个值;
  • Average Pooling:把 2×2 窗口里 4 个值取平均,相当于模糊化。
  • 卷积下采样:用一个 3×3 卷积核去扫,每个 2×2 块的输出是 "加权和",会综合考虑所有像素的贡献,而不是只留一个。

4. 末端结构 - 全局平均池化(

  • **GAP: 网络末端接全局平均池化层和 1000 类的全连接 + Softmax 层,**替代传统全连接层,将特征图压缩为一维向量,大幅减少参数量,抑制过拟合;
  • 1000 类全连接 + Softmax:适配 ImageNet 1000 分类任务。
相关推荐
zzzzzz3101 小时前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐2 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱13 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot15 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海19 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽1 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码1 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
武子康1 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai