学习笔记丨卷积神经网络（CNN）：原理剖析与多领域Github应用

本文深入剖析了卷积神经网络（CNN）的核心原理，并探讨其在计算机视觉、图像处理及信号处理等领域的广泛应用。下面就是本篇博客的全部内容！（内附相关GitHub数据库链接）

一、什么是CNN？

二、CNN核心原理

（一）输入层

一、什么是CNN？

卷积神经网络（Convolutional Neural Network, CNN）是一种专门设计用于处理具有网格状拓扑结构数据（如图像、视频、语音信号）的深度学习模型。它通过模仿生物视觉皮层的工作原理，在图像识别、目标检测、语义分割等任务中展现出卓越性能，是计算机视觉领域的基石技术。

与初级视觉皮层相关的区域与CNN中的各层之间的对应关系 $图源$

卷积神经网络由五个主要部分组成。它们帮助CNN模拟人脑如何识别图像中的模式和特征：

输入层（Input layer）：接收原始像素数据。
卷积层（Convolutional layer）：提取局部特征。
池化层（Pooling layer）：压缩特征，保留关键信息。（不一定会有）
全连接层（Fully connected layer）：整合所有高级特征，进行全局推理。
输出层（Output layer）：给出预测结果。

CNN的基本结构 $图源$

二、CNN核心原理

（一）输入层

输入层是CNN的第一层，负责接收和格式化原始数据，本身不进行特征提取（无权重参数），而是为后续卷积操作准备标准化的数据张量。可以类比于将宏观的 "植物叶片图像" 标准化为微观的 "植物细胞组织排列数据" 。

→

数据标准化过程的比喻

当原始数据（图像、视频或语音信号等）抵达时，输入层首先会将其组织成一种称为**张量（Tensor）**的多维数组结构。

对于一张典型的彩色图像，这个张量会被塑造为（高度, 宽度, 通道数）的形式，灰度图像则对应（高度, 宽度, 1）的单通道张量。例如，++224像素高 x 224像素宽 x 3通道（对应RGB颜色通道）++。

处理视频或语音信号时，输入层会相应构建包含时间维度的更高维张量，如（帧数 x 高度 x 宽度 x 通道数或时间步长 x 通道数），或者将一维信号预处理成二维的时频谱图。

（二）卷积层

卷积层的运作，可以类比于一个由众多小型特征探测器（称为卷积核或滤波器）组成的精密扫描阵列。每个卷积核本质上是一个小型的权重矩阵，常见尺寸如3x3、5x5或7x7。

输入图像及其像素表示 $图源$

这个探测器会在输入数据（对于第一层是经过输入层预处理的图像张量，对于后续层则是上一层输出的特征图）上，以一种规律的方式（从左到右、从上到下）进行滑动扫描。在每一个停留的位置，卷积核会执行一个关键的数学操作：局部点乘累加。

卷积层滑动扫描过程 $图源$

具体来说，它将自身覆盖的输入数据局部小块（称为感受野）中的每个元素，与卷积核对应位置的权重值相乘，然后将所有这些乘积结果相加，最终在输出特征图的对应位置生成一个单一的数值。这个数值反映了输入局部区域与卷积核所代表的特征模式（比如一个特定方向的边缘或某种纹理）的匹配程度。

使用3x3内核的步幅1应用卷积任务 $图源$

不太好理解的话，可以想象你拿一把带图案的"小印章"（卷积核），在整张图片上挨个角落"盖章"。

盖章过程（卷积操作）：印章盖住的每个小区域，你都看一眼："这小块图案和我印章的图案像不像？" 越像，就在新图纸（特征图）对应位置画个大红点（数值越大）。

一把印章（多个卷积核）：你手里不只有一个印章！你有几十个不同的印章------有的专门认"横线"，有的专找"竖线"，有的找"橙色三角"... 每个印章都盖遍全图，生成自己专属的"红点图"（一张特征图）。

一个卷积层通常包含多个（数十甚至数百个）不同的卷积核，其中有几个卷积核就有几个特征图。因此，卷积层输出的不是一个单一的"图"，而是一个特征图堆栈，其深度（通道数）等于该层卷积核的数量。浅层的卷积核可能学习到边缘、角点、颜色斑点等低级特征；深层的卷积核则能组合这些低级特征，检测出更复杂的模式，如纹理、部件（车轮、眼睛）乃至完整的物体轮廓。

卷积核堆叠在一起 $图源$

（三）池化层

池化层的核心作用在于，降低特征图的空间尺寸，减少计算量和参数量，同时增强特征的空间不变性（对微小平移、旋转、缩放不敏感）。

使用2x2滤波器以2的步幅应用最大池化 $图源$

常用的方式包括：

最大池化（Max Pooling）：取窗口区域内的最大值。最能保留显著特征。

最大池化 $图源$

平均池化（Average Pooling）：取窗口区域内的平均值。

平均池化 $图源$