4.2.1 分类任务

明月满西楼2025-12-18 20:17

分类模型的核心结构包括：输入à特征提取（卷积层）à 分类决策（全连接层），代表模型如下。

* LeNet-5：卷积网络的基石，确定了CNN的架构范式，验证了CNN可行。

* AlexNet：承上启下的划时代模型，结构更深，引入ReLU和dropout。

* VGG：堆叠3×3小卷积核替代大卷积核，结构非常规整，探索增加网络深度。

* GoogLeNet：引入Inception模块在单一层内提取多个尺度特征，开创并行多分支网络结构，所用1×1卷积成为深度网络标准配置。

* ResNet：里程碑式的革命性模型，提出了残差学习范式，引入的快捷连接也成为现代深度网络的标配，使得网络可以达到上千层；ResNet及其变体至今仍是许多任务最常用的骨干网络。

以上代表模型的核心结构特点是：（1）一系列的卷积层、池化层进行特征提取，（2）最后通过全局平均池化或者展平层连接全连接层，（3）输出层使用softmax函数输出每个类别的概率。

由于现代CNN模型结构已经基本形成"输入à 骨干网络à 分类器"这样一种范式，因此上述LeNet、AlexNet、VGG、GoogLeNet、ResNet都是骨干网络的杰出代表，它们的设计哲学例如堆叠小卷积核、残差连接、分组卷积等，影响了后续所有视觉任务模型。