目录
[1 为什么使用 CNN 处理图像](#1 为什么使用 CNN 处理图像)
[2 CNN 的整体结构](#2 CNN 的整体结构)
[2.1 Convolution](#2.1 Convolution)
[2.2 Colorful image](#2.2 Colorful image)
[3 Convolution v.s. Fully Connected](#3 Convolution v.s. Fully Connected)
[4 Max Pooling](#4 Max Pooling)
[5 Flatten](#5 Flatten)
[6 CNN in Keras](#6 CNN in Keras)
原视频:李宏毅 2020:Convolutional Neural Network
1 为什么使用 CNN 处理图像
++李宏毅老师提出了以下三点理由。++
① Some patterns are much smaller than the whole image.
通常来讲,图片的一些样式(pattern)远比整张图片小,从而使一个神经元不需要观察整张图片就能够发现某个样式(pattern),这样做还能减少网络中的参数。
比如,可以让一个神经元专门充当鸟嘴检测器(beak detector),它只需要关注这张图片中是否出现了鸟嘴这一样式(pattern),而不需要关注整张图片中的所有样式(pattern)。
② The same patterns appear in different regions.
在不同的图片中可能存在相同的样式(pattern),但是这些样式(pattern)可能出现在图片中的不同位置。在 CNN 中,将会使用同一神经元来检测相同的样式,避免参数的冗余。
比如,针对鸟嘴这一样式(pattern),CNN 不会专门拿两个神经元来分别检测 "左上角的鸟嘴" 和 "中间的鸟嘴",而是复用同一神经元。
③ Subsampling the pixels will not change the object.
取一张图片像素的子集可能并不会影响整张图片的内容。这样做能减小图片的大小,从而减少网络中的参数。
比如,去除这张图片中的奇数行和奇数列,图片变为原始图片的 1/4,但这并不影响我们获取图片中的内容。
2 CNN 的整体结构
CNN 的整体结构如下图所示,其中 Convolution 和 Max Pooling 结构可以叠加多次:
CNN 各部分的性质(property):
- Convolution 实现上一节提到的 ①② 功能
- Max Pooling 实现上一节提到的 ③ 功能
2.1 Convolution
本节将具体介绍 Convolution 模块是干啥的。
假设这里有一张非常简单的黑白图片,大小为 6×6 个像素,1 表示黑色,0 表示白色。同时,提出一个新的概念叫 "过滤器"(filter)。假设这里只有两个过滤器(filter),均为 3×3 的矩阵。
过滤器(filter)的个数不限,不同的过滤器(filter)将被用于检测图片中的不同样式(pattern),实现了上一小节中提到的 ① 号功能。
为了检测图片中的样式(pattern),这两个过滤器(filter)将会分别和图片进行一个称为卷积(convolution)的操作。下面这个动图演示得非常直观(图源:卷积层 | 鲁老师):
具体来说,就是过滤器(filter)会逐行逐列扫描整张图片。被扫描到的图片区域将会和过滤器(filter)进行逐元素相乘再相加,如下图所示:
接着,过滤器(filter)会移动一个步长(stride),和下一个被扫描到的图片区域进行卷积操作。假设步长(stride)为 1,则有:
假设步长(stride)为 2,则有:
显然,你发现过滤器扫描不到图片的一些边缘位置,因此人们提出可以为图片 "加边",也就是加一圈 0,然后再做卷积操作。
这里我们就假设步长(stride)为 1,把所有卷积操作做完,结果如下:
众所周知,向量点积的结果值越大,代表两个向量越相似。在卷积结果中,左上角和左下角的结果值最大。追溯到原始图片,左上角和左下角的图片确实和过滤器(filter)的结构类似。而过滤器(filter)自身的数值代表一种样式,因此可以认为图片的左上角和左下角存在该过滤器(filter)代表的样式(pattern),实现了上一小节中提到的 ② 号功能。
类似地,我们做第二个过滤器(filter)和图片的卷积操作:
图片和两个过滤器(filter)分别得到两个卷积结果,被统称为 "Feature Map",这里的卷积结果均为 4×4 的图片。
卷积结果的大小取决于图片大小、步长大小和过滤器大小。
2.2 Colorful image
在 2.1 节,我们讨论的是简单的黑白照片,每一个像素点由一个数值组成。
对于彩色照片,每一个像素点由三个数值组成,因此过滤器(filter)不再是一个二维向量,而是升级成了一个三维向量。这个第三维被称为 "通道"(channel)。
3 Convolution v.s. Fully Connected
请不要认为卷积(Convolution)是一个与全连接(Fully Connected)毫无关系的、新鲜的操作,它其实就是全连接(Fully Connected)的一个简化版。下图是两者的比较:
这里过滤器(filter)中的数值等价于全连接(Fully Connected)中的黑线,即充当一个权重的作用。换句话说,它们就是网络中的参数(parameter),是在模型训练中学习而来的。而绿框中的圆圈都代表的是一个神经元。
下面具体来看如何将 CNN 中的卷积(Convolution)操作理解为简化版的全连接。
对于全连接(Fully Connected),每个神经元等于所有输入的加权求和;而对于卷积(Convolution),每个神经元只等于部分输入的加权求和。比如,对于第一个神经元,它只需要关注 1、2、3、7、8、9、13、14、15 号输入。这样的部分连接能够减少网络中的参数!
再来看第二个神经元,由于它是和第一个神经元同属于一个过滤器(filter)卷积得到的结果,因此它连接 2、3、4、8、9、10、14、15、16 号输入的参数和第一个神经元是对应相同的。在图中,李宏毅老师用相同的颜色表示具有相同参数的连接。这样的设定又能够进一步减少网络中的参数!
4 Max Pooling
Max Pooling 模块主要实现了 CNN 的 ③ 号功能,即缩小原始图片的大小。比如,在通过卷积(Convolution)模块后我们得到以下结果:
为了缩小原始图片的大小,Max Pooling 操作可能是在一个 2×2 的范围内取其中的最大值,操作结果如下图最右侧所示:
我们最后得到的新图片将比原始图片小,同时新图片的通道数(channel)等于过滤器(filter)的个数。
5 Flatten
Flatten 模块所做的事,就是把新图片的皮展开,即把每个通道的值挨个挨个地排开,最后送入 FFN 中,如下图所示:
6 CNN in Keras
这一页介绍了每个函数参数的含义:
这一页介绍了每个过滤器(filter)含有的参数个数:
9 是因为 3×3,225 是因为 25×3×3,因为第一个 Max Pooling 后的新图片有 25 个通道(channel),因此相应地,第二个 Convolution 中的过滤器(filter)也应该有 25 个通道(channel)。
介于篇幅过长,将于下一篇介绍 CNN 的有趣应用。