DemoFusion 技术浅析（四）：跳跃残差

跳跃残差模块（Skip Residual Module） 是 DemoFusion 框架中用于图像去噪和细节保留的核心组件。该模块通过引入跳跃连接（skip connections）和残差学习（residual learning），在图像去噪过程中有效地保留了图像的全局结构和细节信息，从而提升了生成图像的质量和模型的训练效率。

1. 跳跃残差模块概述

跳跃残差模块 的主要功能是在去噪网络的多个层次之间传递信息，以保留图像的全局结构和细节信息。该模块通过以下方式实现这一目标：

1.跳跃连接（Skip Connections）:

将前一个去噪步骤的特征图直接传递到当前去噪步骤。
可以跨越多个层，甚至跨越不同分辨率的层。

2.残差学习（Residual Learning）:

学习输入图像与目标图像之间的残差，而不是直接学习目标图像本身。
残差学习可以减轻模型的训练难度，提高模型的训练效率和性能。

3.特征融合（Feature Fusion）:

将跳跃连接传递过来的特征图与当前去噪步骤的特征图进行融合。
融合策略可以采用加权平均或注意力机制。

4.残差块（Residual Blocks）:

由多个卷积层和激活函数组成，用于学习残差。
残差块可以堆叠多个，形成深层残差网络。

2. 模块架构详解

跳跃残差模块的架构可以分为以下几个关键部分：

2.1 跳跃连接（Skip Connections）

2.1.1 跳跃连接的作用:

缓解梯度消失: 跳跃连接允许梯度直接传播到前面的层，缓解了深层网络中的梯度消失问题。
保留细节信息: 通过将前一个去噪步骤的特征图直接传递到当前步骤，跳跃连接可以保留图像的细节信息。

2.1.2 跳跃连接的类型:

短跳跃连接（Short Skip Connections） :
- 连接相邻的卷积层或残差块。
- 例如，将编码器中某一层的输出直接传递到解码器中对应的层。
长跳跃连接（Long Skip Connections） :
- 连接不同分辨率的层。
- 例如，将编码器中某一层的输出直接传递到解码器中更高分辨率的层。

2.1.3 跳跃连接的实现:

身份映射（Identity Mapping） :
- 直接将前一个步骤的特征图传递到当前步骤。
卷积映射（Convolutional Mapping） :
- 对前一个步骤的特征图进行卷积操作，以融合不同层次的信息。

2.1.4 跳跃连接的实现细节:

特征对齐 :
- 如果跳跃连接跨越不同分辨率的层，则需要对特征图进行上采样或下采样。
- 例如，可以使用双线性插值（bilinear interpolation）或反卷积（deconvolution）进行上采样。
特征融合 :
- 可以对跳跃连接传递过来的特征图进行卷积操作，以融合不同层次的信息。

公式:

假设跳跃连接传递过来的特征图为，则：
- : 特征对齐函数。
- : 前一个去噪步骤的特征图。
- : 当前特征图的空间维度。

2.2 残差学习（Residual Learning）

2.2.1 残差学习的作用:

简化训练: 残差学习使得模型更容易学习输入图像与目标图像之间的差异，而不是直接学习目标图像本身。
提高性能: 残差学习可以提高模型的训练效率和生成图像的质量。

2.2.2 残差块（Residual Block）:

残差块是残差学习的基本单元，由多个卷积层和激活函数组成。
残差块的计算过程可以表示为：
- : 残差块的输入。
- : 残差函数，通常由两个连续的卷积层组成。
- : 残差块的输出。

2.2.3 残差学习的过程:

假设当前去噪步骤的输入为，目标图像为，则残差可以表示为：
残差学习的目标是学习残差 RR，而不是直接学习 ItargetItarget。

2.2.4 残差学习的实现细节:

残差连接 :
- 使用跳跃连接将前一个残差块的输出直接传递到当前残差块的输出中。
- 例如，可以使用加法操作将跳跃连接传递过来的特征图与当前残差块的输出进行融合。
激活函数 :
- 使用 ReLU 激活函数来引入非线性。

公式:

残差块的输出可以表示为：
- : 当前去噪步骤的输入特征图。
- ResidualBlock: 残差块函数。

2.3 特征融合（Feature Fusion）

2.3.1 特征融合的作用:

将跳跃连接传递过来的特征图与当前去噪步骤的特征图进行融合，以保留图像的细节信息。

2.3.2 特征融合的方法:

加权平均（Weighted Averaging）:
- 对跳跃连接传递过来的特征图和当前去噪步骤的特征图进行加权平均。
- 公式:
  - 是融合权重。
注意力融合（Attention-based Fusion）:
- 使用注意力机制来动态调整跳跃连接传递过来的特征图和当前去噪步骤的特征图的融合权重。
- 例如，可以使用自注意力机制（self-attention mechanism）来捕捉图像的全局依赖关系。