深度学习之卷积问题

1 卷积在图像中有什么直观作用

在卷积神经网络中，卷积常用来提取图像的特征，但不同层次的卷积操作提取到的特征类型是不相同的，特征类型粗分如表1所示。

表1 卷积提取的特征类型

卷积层次	特征类型
浅层卷积	边缘特征
中层卷积	局部特征
深层卷积	全局特征

图像与不同卷积核的卷积可以用来执行边缘检测、锐化和模糊等操作。表5.3显示了应用不同类型的卷积核（滤波器）后的各种卷积图像。

表2 一些常见卷积核的作用

卷积作用	卷积核	卷积后图像
输出原图	$0 0 0 0 1 0 0 0 0$ \begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix} 000010000

| 边缘检测（突出边缘差异） | $1 0 - 1 0 0 0 - 1 0 1$ \begin{bmatrix} 1 & 0 & -1 \\ 0 & 0 & 0 \\ -1 & 0 & 1 \end{bmatrix} 10−1000−101 |

| 边缘检测（突出中间值） | $- 1 - 1 - 1 - 1 8 - 1 - 1 - 1 - 1$ \begin{bmatrix} -1 & -1 & -1 \\ -1 & 8 & -1 \\ -1 & -1 & -1 \end{bmatrix} −1−1−1−18−1−1−1−1 |

| 图像锐化 | $0 - 1 0 - 1 5 - 1 0 - 1 0$ \begin{bmatrix} 0 & -1 & 0 \\ -1 & 5 & -1 \\ 0 & -1 & 0 \end{bmatrix} 0−10−15−10−10 |

| 方块模糊 | $1 1 1 1 1 1 1 1 1$ × 1 9 \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} \times \frac{1}{9} 111111111 ×91 |

| 高斯模糊 | $1 2 1 2 4 2 1 2 1$ × 1 16 \begin{bmatrix} 1 & 2 & 1 \\ 2 & 4 & 2 \\ 1 & 2 & 1 \end{bmatrix} \times \frac{1}{16} 121242121 ×161 |

2 卷积层有哪些基本参数？

卷积层中需要用到卷积核（滤波器或特征检测器）与图像特征矩阵进行点乘运算，利用卷积核与对应的特征感受域进行划窗式运算时，需要设定卷积核对应的大小、步长、个数以及填充的方式，如表3所示。

表3 卷积层的基本参数

参数名	作用	常见设置
卷积核大小 (Kernel Size)	卷积核的大小定义了卷积的感受野	在过去常设为5，如LeNet-5；现在多设为3，通过堆叠 3 × 3 3\times3 3×3的卷积核来达到更大的感受域
卷积核步长 (Stride)	定义了卷积核在卷积过程中的步长	常见设置为1，表示滑窗距离为1，可以覆盖所有相邻位置特征的组合；当设置为更大值时相当于对特征组合降采样
填充方式 (Padding)	在卷积核尺寸不能完美匹配输入的图像矩阵时需要进行一定的填充策略	设置为'SAME'表示对不足卷积核大小的边界位置进行某种填充（通常零填充）以保证卷积输出维度与与输入维度一致；当设置为'VALID'时则对不足卷积尺寸的部分进行舍弃，输出维度就无法保证与输入维度一致
输入通道数 (In Channels)	指定卷积操作时卷积核的深度	默认与输入的特征矩阵通道数（深度）一致；在某些压缩模型中会采用通道分离的卷积方式
输出通道数 (Out Channels)	指定卷积核的个数	若设置为与输入通道数一样的大小，可以保持输入输出维度的一致性；若采用比输入通道数更小的值，则可以减少整体网络的参数量

卷积操作维度变换公式：

O d = { ⌈ ( I d − k s i z e ) + 1 ) s ⌉ , padding=VALID ⌈ I d s ⌉ , padding=SAME O_d =\begin{cases} \lceil \frac{(I_d - k_{size})+ 1)}{s}\rceil ,& \text{padding=VALID}\\ \lceil \frac{I_d}{s}\rceil,&\text{padding=SAME} \end{cases} Od={⌈s(Id−ksize)+1)⌉,⌈sId⌉,padding=VALIDpadding=SAME

其中， I d I_d Id为输入维度， O d O_d Od为输出维度， k s i z e k_{size} ksize为卷积核大小， s s s为步长

3 卷积核有什么类型？

常见的卷积主要是由连续紧密的卷积核对输入的图像特征进行滑窗式点乘求和操作，除此之外还有其他类型的卷积核在不同的任务中会用到，具体分类如表5.5所示。

表4 卷积核分类

卷积类别	示意图	作用
标准卷积		最常用的卷积核，连续紧密的矩阵形式可以提取图像区域中的相邻像素之间的关联关系， 3 × 3 3\times3 3×3的卷积核可以获得 3 × 3 3\times3 3×3像素范围的感受视野
扩张卷积（带孔卷积或空洞卷积）
引入一个称作扩张率（Dilation Rate）的参数，使同样尺寸的卷积核可以获得更大的感受视野，相应的在相同感受视野的前提下比普通卷积采用更少的参数。同样是 3 × 3 3\times3 3×3的卷积核尺寸，扩张卷积可以提取 5 × 5 5\times5 5×5范围的区域特征，在实时图像分割领域广泛应用
转置卷积
先对原始特征矩阵进行填充使其维度扩大到适配卷积目标输出维度，然后进行普通的卷积操作的一个过程，其输入到输出的维度变换关系恰好与普通卷积的变换关系相反，但这个变换并不是真正的逆变换操作，通常称为转置卷积(Transpose Convolution)而不是反卷积(Deconvolution)。转置卷积常见于目标检测领域中对小目标的检测和图像分割领域还原输入图像尺度。
可分离卷积
标准的卷积操作是同时对原始图像 H × W × C H\times W\times C H×W×C三个方向的卷积运算，假设有 K K K个相同尺寸的卷积核，这样的卷积操作需要用到的参数为 H × W × C × K H\times W\times C\times K H×W×C×K个；若将长宽与深度方向的卷积操作分离出变为 H × W H\times W H×W与 C C C的两步卷积操作，则同样的卷积核个数 K K K，只需要 ( H × W + C ) × K (H\times W + C)\times K (H×W+C)×K个参数，便可得到同样的输出尺度。可分离卷积(Seperable Convolution)通常应用在模型压缩或一些轻量的卷积神经网络中，如MobileNet $1$ ^{ $1$ } $1$ 、Xception $2$ ^{ $2$ } $2$ 等

5 二维卷积与三维卷积有什么区别？

二维卷积
二维卷积操作如图5.3所示，为了更直观的说明，分别展示在单通道和多通道输入中，对单个通道输出的卷积操作。在单通道输入的情况下，若输入卷积核尺寸为 ( k h , k w , 1 ) (k_h, k_w, 1) (kh,kw,1)，卷积核在输入图像的空间维度上进行滑窗操作，每次滑窗和 ( k h , k w ) (k_h, k_w) (kh,kw)窗口内的值进行卷积操作，得到输出图像中的一个值。在多通道输入的情况下，假定输入图像特征通道数为3，卷积核尺寸则为 ( k h , k w , 3 ) (k_h, k_w, 3) (kh,kw,3)，每次滑窗与3个通道上的 ( k h , k w ) (k_h, k_w) (kh,kw)窗口内的所有值进行卷积操作，得到输出图像中的一个值。

三维卷积
3D卷积操作如图所示，同样分为单通道和多通道，且假定只使用1个卷积核，即输出图像仅有一个通道。对于单通道输入，与2D卷积不同之处在于，输入图像多了一个深度(depth)维度，卷积核也多了一个 k d k_d kd维度，因此3D卷积核的尺寸为 ( k h , k w , k d ) (k_h, k_w, k_d) (kh,kw,kd)，每次滑窗与 ( k h , k w , k d ) (k_h, k_w, k_d) (kh,kw,kd)窗口内的值进行相关操作，得到输出3D图像中的一个值。对于多通道输入，则与2D卷积的操作一样，每次滑窗与3个channels上的 ( k h , k w , k d ) (k_h, k_w, k_d) (kh,kw,kd)窗口内的所有值进行相关操作，得到输出3D图像中的一个值。