6 卷积神经网络

图像中拥有丰富的结构，而这些结构可以被人类和机器学习模型使用。

卷积神经网络（convolutional neural networks，CNN）是机器学习利用自然图像中一些已知结构的创造性方法。

6.1.1 空间不变性

在机器学习中，空间不变性通常与卷积神经网络（CNN）相关联。

空间不变性包含平移不变性

平移不变性使得CNN在处理图像数据时非常有效，因为它们可以识别出图像中的目标，而不管这些目标位于图像的哪个位置。

卷积网络中，卷积层的权重被称为卷积核 （convolution kernel）或者滤波器（filter），通常该权重是可学习的参数。

在卷积神经网络中，对于某一层的任意元素x，其感受野（receptive field）是指在前向传播期间可能影响x计算的所有元素（来自所有先前层）。

6.3 填充和步幅

填充可以增加输出的高度和宽度。这常用来使输出与输入具有相同的高和宽。

应用多层卷积时，我们常常丢失边缘像素

于我们通常使用小卷积核，因此对于任何单个卷积，我们可能只会丢失几个像素。但随着我们应用许多连续卷积层，累积丢失的像素数就多了。解决这个问题的简单方法即为填充（padding）：在输入图像的边界填充元素（通常填充元素是0）。

需要设置ph=kh−1和pw=kw−1，使输入和输出具有相同的高度和宽度

假设kh是奇数，我们将在高度的两侧填充ph/2行。如果kh是偶数，则一种可能性是在输入顶部填充⌈ph/2⌉行，在底部填充⌊ph/2⌋行。同理，我们填充宽度的两侧。

有时候为了高效计算或是缩减采样次数，卷积窗口可以跳过中间位置，每次滑动多个元素。

我们将每次滑动元素的数量称为步幅（stride）

卷积的本质是有效提取相邻像素间的相关特征

6.5. 汇聚层（pooling）

汇聚（pooling）层，它具有双重目的：降低卷积层对位置的敏感性，同时降低对空间降采样表示的敏感性。

默认情况下，深度学习框架中的步幅与汇聚窗口的大小相同。