分类、检测与分割在不同网络中的设计体现
概述
在计算机视觉领域,不同的网络结构在功能和结构上差异显著,同时也共享一些基础设计元素。
- 卷积神经网络 是基石:
- 卷积层通过特定的卷积核与图像进行卷积运算
- 提取图像中的局部特征,比如边缘、纹理等
- 池化层 的作用:
- 以降采样的方式保留关键信息
- 大幅降低数据维度,减少计算量
- 有效防止过拟合
- 全连接层 的功能:
- 在很多网络中承担分类决策的重任
- 将卷积层和池化层提取到的特征进行整合
- 转化为具体的分类概率
在通用模块的基础上,不同的视觉任务催生出了各具特色的网络结构(network)设计。
分类
核心要求:学习具有高度判别性(对比度)的全局特征
典型代表:
-
AlexNet
- 采用深层卷积结构,多个卷积层堆叠,逐步提取从简单到复杂的特征。 随着网络层次深入,特征越来越抽象且具有代表性,最后通过全连接层将特征向量映射到类别空间。
-
VGG网络
- 采用固定大小的卷积核进行堆叠,规整的结构易于训练,通过加深网络深度学习更丰富的图像特征。
-
ResNet网络
- 引入"残差学习"概念,通过捷径连接(shortcut connections)解决深度网络中的梯度消失和模型退化问题
- 可以构建非常深的网络(如ResNet-50、ResNet-101和ResNet-152)
- 通过跳跃连接允许信息在网络中跳过几个层级,促进更好的信号传递
-
DenseNet网络
- 采用密集连接块(Dense Block)结构, 每个层都与前面所有层直接连接
- 特征通过通道拼接(Concatenation)而非相加(Add)实现复用,提升特征和梯度传播效率
- 在保持精度的同时减少参数量(相比ResNet减少50%)
检测任务
核心要求:识别目标类别并精准定位目标位置
典型方法:
-
Fast R-CNN
- 两阶段检测策略
- 核心创新:区域提议网络(RPN)
- 使用不同大小和长宽比的锚框
- 通过卷积运算评估每个锚框包含目标的可能性
- 生成可能包含目标的候选区域
- 候选区域经过分类和边界框回归
- 最终确定目标的位置和类别
- 优势:
- 有效减少候选区域数量
- 提高检测效率和精度
-
YOLO
- 将目标检测通过网格划分分解为局部回归问题
- 单网络同时预测:
- 目标位置
- 类别
- 置信度
- 优势:
- 摒弃传统两阶段检测流程
- 提高检测速度
- 在实时目标检测场景优势明显
-
基于ResNet的检测网络
- 许多现代检测网络(如FPN、Mask R-CNN)使用ResNet作为骨干网络进行特征提取
- ResNet的深层特征提取能力为检测任务提供了丰富的多尺度特征
- 残差结构使得网络可以构建更深的检测模型而不出现梯度消失问题
分割任务
核心要求:对图像每个像素进行分类,精确勾勒目标轮廓
典型代表:
-
FCN
- 用卷积取代全连接层,是一个全卷积网络
- 首次实现端到端像素级预测,为语义分割而生
- 采用反卷积层和跳跃连接融合多尺度特征
- 可以接受任意尺寸的输入图像
- 适用于通用场景的语义分割
-
U-Net
-
U型网络结构,对称编码器-解码器结构设计。
-
编码器部分:
- 通过卷积和池化操作,不断降低图像分辨率,提高特征维度,逐步提取图像的高级特征。
-
解码器部分:
- 通过上采样和反卷积操作,恢复图像分辨率,跳跃连接融合编码器中不同层次的特征。
-
优势:
- 保留低级特征的细节信息
- 结合高级特征的语义信息
- 通过密集的跳跃连接 concat(而非FCN的相加)融合多尺度特征
- 分割结果精确到像素级
- 在医学影像分割等领域表现卓越
-
-
基于ResNet的分割网络
- 许多分割网络(如DeepLab系列)使用ResNet作为编码器部分
- ResNet的深层特征提取能力为分割任务提供了丰富的语义信息
- 残差结构使得网络可以构建更深的编码器而不丢失细节信息
- 结合ResNet和U-Net的跳跃连接结构可以同时利用低级细节和高级语义信息
总结
不同的计算机视觉任务基于相似的基础网络模块,发展出了适应各自需求的网络结构:
-
分类网络:从AlexNet、VGG到ResNet,网络深度不断增加,残差连接的引入解决了深层网络的训练难题,使网络能够学习更抽象和判别性的特征。
-
检测网络:从两阶段的R-CNN系列到单阶段的YOLO系列,网络设计注重平衡精度与速度,ResNet等分类网络常被用作特征提取骨干。
-
分割网络:从FCN、U-Net到DeepLab系列,网络设计强调保持空间信息和多尺度特征融合,跳跃连接和编码器-解码器结构是关键设计。
这些网络在不断的实践和改进中,通过任务特定的优化设计(如ResNet的残差块、U-Net的跳跃连接、YOLO的回归策略等),推动着计算机视觉技术的不断发展。