CNN 网络结构简介

本文通过整理李宏毅老师的机器学习教程的内容，介绍 CNN（卷积神经网络）的网络结构。

CNN 主要应用在图像识别（image classification, 图像分类）领域。

通常，输入的图片大小相同，如 100 × 100 100 \times 100 100×100，输出的分类为 one-hot 形式：

输入数据的格式为 tensor（张量），维数为：宽度 × \times × 高度 × \times × channel（频道）数：

理解方式一：神经元视角（neuron version story）

如果使用全连接（fully connected network）的网络结构，参数量会非常大：

考虑到图片识别问题的特性，其实并不需要全连接的网络，下面基于此进行简化。

图像识别本质上是对图像中的各个部位进行识别，如一只鸟的喙、眼和爪等，因此每个神经元（neuron）只需输入图片的一部分即可，即感受野（receptive field）：

值得注意的是：

此外，感受野还可以有一些其他的操作：

总之，感受野可以任意设计。

最经典的感受野的设计如下：

由于同样的模式可能出现在图片的不同位置：

于是侦测不同位置的相同模式的神经元，其对应的参数相同，即参数共享：

侦测相同位置的神经元不能共享参数。

共享的参数叫做滤波器（filter）：

综上所述，以上两种 CNN 对全连接网络的简化方式：

将每个卷积层（convolutional layer）视为若干滤波器扫过整张图片，去识别对应的模式：

同一卷积层的所有滤波器输出的所有数据叫做 feature map，它可以看成是另一张图片，只不过 channel 数量由 3 个（RGB）变成了滤波器的数量，因此下一层的滤波器的高度需要设为上一层的滤波器数量：

当网络更深时，同样大小的感受野所看到的范围会越来越大，例如，同样是 3 × 3 3 \times 3 3×3 的感受野，在第二层就可以看到原图片中 5 × 5 5 \times 5 5×5 的范围：

此外，第一种理解方式中的参数共享，即是把滤波器扫过整张图片的过程。

两种理解方式总结如下：

pooling 即 subsampling，是把一张大的图片缩小，以减少运算量的过程。

常见的 pooling 方式为 max pooling，即保留最大值：

通常是做一层或几层卷积后，做一次 pooling，整体网络结构如下：

但近年来，pooling 用得越来越少，甚至可有可无，因为其操作会影响性能，而运算资源又越来越强。

其中，rectifier nonlinearity 即为 ReLU。

此外，AlphaGo 没有使用 pooling。

CNN 无法处理图片放大缩小或旋转的情形，解决方案有：