第五章:计算机视觉(Computer Vision)
第一部分:计算机视觉基础
第三节:卷积神经网络核心层与架构分析:卷积层、池化层、归一化层、激活层
一、引言
卷积神经网络(Convolutional Neural Network, CNN)是计算机视觉领域的里程碑性突破。其核心思想是利用卷积操作提取图像的局部特征,并逐层组合为高层语义特征。CNN 已成为图像分类、目标检测、语义分割等任务的主流架构。
CNN 的强大之处在于 层次化特征学习:
-
低层:学习边缘、角点等基础特征。
-
中层:学习纹理、局部形状。
-
高层:学习复杂物体的语义信息。
要理解 CNN,需要深入认识它的核心层:卷积层、池化层、归一化层、激活层。
二、卷积层(Convolutional Layer)
1. 定义
卷积层是 CNN 的核心。它通过滑动 卷积核(Filter) 在输入特征图上执行卷积运算,提取局部特征。
数学表达式:
-
x:输入像素或特征图
-
w:卷积核权重
-
b:偏置
-
:输出特征图(Feature Map)上的一个值
2. 特点
-
局部感受野:卷积核只关注局部区域,逐步组合成全局特征。
-
参数共享:同一个卷积核在整张图上滑动,大大减少参数量。
-
稀疏连接:每个输出值只依赖输入的局部区域。
3. 作用
提取图像的边缘、纹理、形状等特征。
三、池化层(Pooling Layer)
1. 定义
池化层用于下采样,减少特征图尺寸,同时保留关键信息。
常见方法:
-
最大池化(Max Pooling):取窗口内的最大值。
-
平均池化(Average Pooling):取窗口内的平均值。
2. 数学表示
其中 kk 表示池化窗口大小。
3. 作用
-
降低特征图维度,减少计算量。
-
提高模型对平移、缩放等变化的鲁棒性。
四、归一化层(Normalization Layer)
归一化操作能加速训练、提高模型稳定性。
1. 常见方法
-
批量归一化(Batch Normalization, BN)
对每一批数据在通道维度上做归一化:
,
-
μ:均值
-
σ:标准差
-
γ,β:可学习参数
-
-
层归一化(Layer Normalization, LN):对每个样本的所有特征归一化,常用于 NLP。
-
组归一化(Group Normalization, GN):在通道维度上分组归一化,适合小批量训练。
2. 作用
-
缓解梯度消失与爆炸问题。
-
提高训练速度与收敛效果。
五、激活层(Activation Layer)
激活函数引入非线性,使神经网络能学习复杂模式。
常见激活函数:
- Sigmoid
缺点:梯度消失。
- ReLU (Rectified Linear Unit)
优点:计算简单,收敛快。
- Leaky ReLU
缓解 ReLU 死亡问题。
-
Softmax
用于分类任务输出概率分布。
六、典型 CNN 架构
一个典型 CNN 网络结构如下:
输入图像 → 卷积层 + 激活层 → 卷积层 + 激活层 → 池化层 →
卷积层 + 激活层 → 池化层 → 全连接层 → Softmax 输出
经典模型实例:
-
LeNet-5 (1998):手写数字识别
-
AlexNet (2012):ImageNet 竞赛冠军,掀起深度学习浪潮
-
VGGNet (2014):使用更深的卷积层堆叠
-
ResNet (2015):引入残差结构,解决梯度消失问题
七、总结
-
卷积层:提取局部特征,参数共享。
-
池化层:降低维度,增强鲁棒性。
-
归一化层:稳定训练,加速收敛。
-
激活层:引入非线性,提升表达能力。
这四类核心层共同构成了 CNN 的基本单元,使其能够在图像理解任务中表现出色。