4.2.1 分类任务
分类模型的核心结构包括:输入à特征提取(卷积层)à 分类决策(全连接层),代表模型如下。
* LeNet-5:卷积网络的基石,确定了CNN的架构范式,验证了CNN可行。
* AlexNet:承上启下的划时代模型,结构更深,引入ReLU和dropout。
* VGG:堆叠3×3小卷积核替代大卷积核,结构非常规整,探索增加网络深度。
* GoogLeNet:引入Inception模块在单一层内提取多个尺度特征,开创并行多分支网络结构,所用1×1卷积成为深度网络标准配置。
* ResNet:里程碑式的革命性模型,提出了残差学习范式,引入的快捷连接也成为现代深度网络的标配,使得网络可以达到上千层;ResNet及其变体至今仍是许多任务最常用的骨干网络。
1.结构特点
以上代表模型的核心结构特点是:(1)一系列的卷积层、池化层进行特征提取,(2)最后通过全局平均池化或者展平层连接全连接层,(3)输出层使用softmax函数输出每个类别的概率。
2.骨干网络
由于现代CNN模型结构已经基本形成"输入à 骨干网络à 分类器"这样一种范式,因此上述LeNet、AlexNet、VGG、GoogLeNet、ResNet都是骨干网络的杰出代表,它们的设计哲学例如堆叠小卷积核、残差连接、分组卷积等,影响了后续所有视觉任务模型。