【第五章:计算机视觉】1.计算机视觉基础-(3)卷积神经网络核心层与架构分析：卷积层、池化层、归一化层、激活层

第五章：计算机视觉（Computer Vision）

第一部分：计算机视觉基础

第三节：卷积神经网络核心层与架构分析：卷积层、池化层、归一化层、激活层

一、引言

卷积神经网络（Convolutional Neural Network, CNN）是计算机视觉领域的里程碑性突破。其核心思想是利用卷积操作提取图像的局部特征，并逐层组合为高层语义特征。CNN 已成为图像分类、目标检测、语义分割等任务的主流架构。

CNN 的强大之处在于 层次化特征学习：

低层：学习边缘、角点等基础特征。
中层：学习纹理、局部形状。
高层：学习复杂物体的语义信息。

要理解 CNN，需要深入认识它的核心层：卷积层、池化层、归一化层、激活层。

二、卷积层（Convolutional Layer）

1. 定义

卷积层是 CNN 的核心。它通过滑动 卷积核（Filter） 在输入特征图上执行卷积运算，提取局部特征。

数学表达式：

x：输入像素或特征图
w：卷积核权重
b：偏置
：输出特征图（Feature Map）上的一个值

2. 特点

局部感受野：卷积核只关注局部区域，逐步组合成全局特征。
参数共享：同一个卷积核在整张图上滑动，大大减少参数量。
稀疏连接：每个输出值只依赖输入的局部区域。

3. 作用

提取图像的边缘、纹理、形状等特征。

三、池化层（Pooling Layer）

1. 定义

池化层用于下采样，减少特征图尺寸，同时保留关键信息。

常见方法：

最大池化（Max Pooling）：取窗口内的最大值。
平均池化（Average Pooling）：取窗口内的平均值。

2. 数学表示

其中 kk 表示池化窗口大小。

3. 作用

降低特征图维度，减少计算量。
提高模型对平移、缩放等变化的鲁棒性。

四、归一化层（Normalization Layer）

归一化操作能加速训练、提高模型稳定性。

1. 常见方法

批量归一化（Batch Normalization, BN）

对每一批数据在通道维度上做归一化：

,
- μ：均值
- σ：标准差
- γ,β：可学习参数
层归一化（Layer Normalization, LN）：对每个样本的所有特征归一化，常用于 NLP。
组归一化（Group Normalization, GN）：在通道维度上分组归一化，适合小批量训练。

2. 作用

缓解梯度消失与爆炸问题。
提高训练速度与收敛效果。

五、激活层（Activation Layer）

激活函数引入非线性，使神经网络能学习复杂模式。

常见激活函数：

Sigmoid

缺点：梯度消失。

ReLU (Rectified Linear Unit)

优点：计算简单，收敛快。

Leaky ReLU

缓解 ReLU 死亡问题。

Softmax

用于分类任务输出概率分布。

六、典型 CNN 架构

一个典型 CNN 网络结构如下：

复制代码

输入图像 → 卷积层 + 激活层 → 卷积层 + 激活层 → 池化层 → 
卷积层 + 激活层 → 池化层 → 全连接层 → Softmax 输出

经典模型实例：

LeNet-5 (1998)：手写数字识别
AlexNet (2012)：ImageNet 竞赛冠军，掀起深度学习浪潮
VGGNet (2014)：使用更深的卷积层堆叠
ResNet (2015)：引入残差结构，解决梯度消失问题

七、总结

卷积层：提取局部特征，参数共享。
池化层：降低维度，增强鲁棒性。
归一化层：稳定训练，加速收敛。
激活层：引入非线性，提升表达能力。

这四类核心层共同构成了 CNN 的基本单元，使其能够在图像理解任务中表现出色。