跳跃连接(Skip Connection)与残差连接(Residual Connection)

1. 跳跃连接(Skip Connection)的基本概念

跳跃连接是一种在深度神经网络中广泛应用的技术,它允许信息在网络中跨层直接传递。在传统的神经网络里,每一层的输出仅仅是前一层输出经过特定变换后的结果。而在具备跳跃连接的网络中,某一层的输出不仅能够包含前一层的变换结果,还可以直接包含更早层的输出。

在残差网络(ResNet)里,跳跃连接的核心结构为残差块。假设输入为 ,经过一系列非线性变换(像卷积、激活函数等)后得到 ,残差块的输出 由以下公式给出:

2. 从反向传播角度看梯度稳定

在神经网络的训练过程中,反向传播算法用于计算损失函数关于网络参数的梯度,以此来更新参数。梯度消失和梯度爆炸是深度神经网络训练时常见的问题。当网络层数极深时,梯度在反向传播过程中会不断地进行连乘操作,要是梯度值小于 1,经过多层连乘后就会趋近于 0,这便是梯度消失;要是梯度值大于 1,经过多层连乘后就会变得非常大,这就是梯度爆炸。

现在,我们从反向传播的角度来分析跳跃连接对梯度的影响。假设损失函数为 ,对输出 求梯度可得:

由于 ,所以

那么

3. "梯度上加 1 的常数项" 对梯度稳定的作用

  • 避免梯度消失 :在没有跳跃连接的情况下,梯度仅仅是。要是的值非常小,经过多层反向传播后,梯度就会趋近于 0。然而,在有跳跃连接时,多了一个常数项。即便 趋近于 0,梯度至少还有这一部分,不会完全消失。
  • 平滑梯度更新 :在反向传播过程中,梯度的波动可能会很大,这会使训练过程变得不稳定。跳跃连接添加的常数项能够在一定程度上平滑梯度的更新。因为这个常数项的存在,梯度不会因为的微小变化而产生剧烈的波动,进而让训练过程更加稳定。

4. 直观示例

我们可以把神经网络的每一层想象成一个信息处理的阶段。在传统网络中,信息必须一层一层地传递,要是某一层的处理出现问题(例如梯度消失),后续层就很难接收到有效的信息。而跳跃连接就像是一条 "捷径",信息能够直接跳过某些层。从梯度的角度来看,跳跃连接提供了另一条梯度传播的路径,使得梯度不会因为某一层的变换而完全丢失或者变得不稳定。

综上所述,跳跃连接通过在梯度计算中引入常数项 1,有效地避免了梯度消失问题,平滑了梯度更新,从而增强了深度神经网络训练过程中梯度的稳定性。

5.残差连接(Residual Connection)

跳跃连接(Skip Connection)和残差连接(Residual Connection)在很多情况下被视为等同概念,但严格来说,二者既有联系又有区别,下面为你详细分析:

联系

在大多数深度学习的讨论场景中,跳跃连接和残差连接可以互换使用,它们核心思想一致。残差连接是跳跃连接在残差网络(ResNet)里的具体应用形式。二者都旨在解决深度神经网络训练过程中梯度消失和梯度爆炸的问题,通过让网络中的信息跨层直接传递,来保留更多原始特征,增强网络的学习能力。

在数学形式上,它们也具有相似性。以常见的残差块为例,假设输入为,经过一系列非线性变换(如卷积、激活函数等)后得到,残差块的输出可以表示为:

这里的直接跨越了这部分网络层,这既是残差连接的体现,也符合跳跃连接的定义。

区别

  • 概念范畴 :跳跃连接是一个更宽泛的概念,它描述的是信息可以跨越网络中的某些层进行传递的这种连接方式。只要存在信息不按照常规的逐层传递,而是跳过部分层的情况,都可以称为跳跃连接。而残差连接是一种特定类型的跳跃连接,它在跳跃连接的基础上,强调了残差学习的思想,即学习输入与期望输出之间的残差
  • 应用场景和目的侧重:跳跃连接的应用场景更为广泛,它可以应用于各种类型的神经网络架构中,目的是为了促进信息的流动、缓解梯度问题等。例如,在 U-Net 网络中也使用了跳跃连接,主要是为了在解码器部分恢复图像的细节信息,将编码器部分的特征图直接传递到解码器对应层。而残差连接主要应用于以 ResNet 为代表的残差网络中,侧重于通过残差学习让网络更容易学习到输入与输出之间的映射关系,从而可以训练更深层次的网络。

综上所述,虽然跳跃连接和残差连接在很多情况下含义相近,但残差连接是跳跃连接的一种具体且有特定目的的应用形式。

相关推荐
隐语SecretFlow1 天前
国人自研开源隐私计算框架SecretFlow,深度拆解框架及使用【开发者必看】
深度学习
Billy_Zuo1 天前
人工智能深度学习——卷积神经网络(CNN)
人工智能·深度学习·cnn
羊羊小栈1 天前
基于「YOLO目标检测 + 多模态AI分析」的遥感影像目标检测分析系统(vue+flask+数据集+模型训练)
人工智能·深度学习·yolo·目标检测·毕业设计·大作业
l12345sy1 天前
Day24_【深度学习—广播机制】
人工智能·pytorch·深度学习·广播机制
九章云极AladdinEdu1 天前
超参数自动化调优指南:Optuna vs. Ray Tune 对比评测
运维·人工智能·深度学习·ai·自动化·gpu算力
研梦非凡1 天前
ICCV 2025|从粗到细:用于高效3D高斯溅射的可学习离散小波变换
人工智能·深度学习·学习·3d
通街市密人有1 天前
IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
人工智能·深度学习·计算机视觉
智数研析社2 天前
9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用
大数据·人工智能·python·深度学习·数据分析·数据集·数据清洗
七元权2 天前
论文阅读-Correlate and Excite
论文阅读·深度学习·注意力机制·双目深度估计
ViperL12 天前
[智能算法]可微的神经网络搜索算法-FBNet
人工智能·深度学习·神经网络