【动手学深度学习】7.6. 残差网络(ResNet)(个人向笔记)

1. ResNet精读论文视频的Introduction部分

  • 深度卷积神经网络好,好在可以叠加很多层,每一层都可以提取不一样的特征
  • 但是网络特别深的时候,梯度要么爆炸要么消失,我们能做的就是将参数随机初始化做好,或者是在中间加一些 batch normalization。在使用了这些方法后,深度卷积神经网络得以收敛
  • 但是收敛后的深度变深会导致性能变差。但是这不是由于过拟合引起的,这就意味着你的网络看似是收敛了,丹斯其实没有得到很好的训练
  • 于是论文提出,对于一个效果好的浅网络,如果再加一些层让它变深,它的效果是不应该变差的。虽然理论上存在一些比较优的解,但是SGD找不出来
  • 这篇文章提出可以显示地构造一个优解(identity mapping),使得深层的不会比浅层更差
  • 我们假设原来的要学习的是 H(x),这里构造一个 F(x) = H(x) - x, 这表示我们对于前面学过的 x(这里的 x 是上一层网络的输出),我们不需要再重新去学习它了,所以把它减掉。因此我们在这里学习到的是残差,最后输出再把 x 加回来
  • 这个方法很好,没有增加参数,即增加复习复杂度。也没有增加计算复杂度,因为只是一个加法,而且网络也是可训练的。它可以做到网络越深,效果越好

2. 函数类

  • 原文有定义,我们在这里直接引用:我们对网络的叠加很可能是非嵌套函数类。对于深度神经网络,如果我们能将新添加的层训练成恒等映射(identity function) f ( x ) = x f(x) = x f(x)=x,新模型和原模型将同样有效。 同时,由于新模型可能得出更优的解来拟合训练数据集,因此添加层似乎更容易降低训练误差。
  • 针对这一问题,何恺明等人提出了残差网络(ResNet)。

3. 残差块

  • 和论文 introcution 部分介绍的内容差不多:
  • ResNet沿用了VGG完整的 3 × 3 3×3 3×3 卷积层设计。残差块里首先有 2 个相同输出通道数的 3 × 3 3\times3 3×3 卷积层。每个卷积层后接一个BN层和ReLU。然后我么通过跨层数据通路,跳过这两个卷积运算,将输入直接加在最后的 ReLU 激活函数前。这样的设计要求两个卷积层的输出于输入形状一样,从而使得它们可以相加。而如果想要改变通道数就需要引入一个额外的 1 × 1 1×1 1×1 卷积层来将输入变换成需要的形状后再做相加运算



4. ResNet模型

  • ResNet-18如下
相关推荐
CoovallyAIHub7 小时前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub8 小时前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub8 小时前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉
CoovallyAIHub8 小时前
强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”
深度学习·算法·计算机视觉
CoovallyAIHub8 小时前
YOLO-IOD深度解析:打破实时增量目标检测的三重知识冲突
深度学习·算法·计算机视觉
用户1474853079741 天前
AI-动手深度学习环境搭建-d2l
深度学习
OpenBayes贝式计算1 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算1 天前
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
人工智能·深度学习·机器学习
DianSan_ERP2 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
在人间耕耘2 天前
HarmonyOS Vision Kit 视觉AI实战:把官方 Demo 改造成一套能长期复用的组件库
人工智能·深度学习·harmonyos