（视觉）分类、检测与分割在不同网络中的设计体现

分类、检测与分割在不同网络中的设计体现

在计算机视觉领域，不同的网络结构在功能和结构上差异显著，同时也共享一些基础设计元素。

在通用模块的基础上，不同的视觉任务催生出了各具特色的网络结构（network）设计。

核心要求：识别目标类别并精准定位目标位置

典型方法：

Fast R-CNN
- 两阶段检测策略
- 核心创新：区域提议网络（RPN）
  - 使用不同大小和长宽比的锚框
  - 通过卷积运算评估每个锚框包含目标的可能性
  - 生成可能包含目标的候选区域
- 候选区域经过分类和边界框回归
- 最终确定目标的位置和类别
- 优势：
  - 有效减少候选区域数量
  - 提高检测效率和精度
YOLO
- 将目标检测通过网格划分分解为局部回归问题
- 单网络同时预测：
  - 目标位置
  - 类别
  - 置信度
- 优势：
  - 摒弃传统两阶段检测流程
  - 提高检测速度
  - 在实时目标检测场景优势明显
基于ResNet的检测网络
- 许多现代检测网络（如FPN、Mask R-CNN）使用ResNet作为骨干网络进行特征提取
- ResNet的深层特征提取能力为检测任务提供了丰富的多尺度特征
- 残差结构使得网络可以构建更深的检测模型而不出现梯度消失问题

核心要求：对图像每个像素进行分类，精确勾勒目标轮廓

典型代表：

FCN
- 用卷积取代全连接层，是一个全卷积网络
- 首次实现端到端像素级预测，为语义分割而生
- 采用反卷积层和跳跃连接融合多尺度特征
- 可以接受任意尺寸的输入图像
- 适用于通用场景的语义分割
U-Net
- U型网络结构，对称编码器-解码器结构设计。
- 编码器部分：
  - 通过卷积和池化操作，不断降低图像分辨率，提高特征维度，逐步提取图像的高级特征。
- 解码器部分：
  - 通过上采样和反卷积操作，恢复图像分辨率，跳跃连接融合编码器中不同层次的特征。
- 优势：
  - 保留低级特征的细节信息
  - 结合高级特征的语义信息
  - 通过密集的跳跃连接 concat（而非FCN的相加）融合多尺度特征
  - 分割结果精确到像素级
  - 在医学影像分割等领域表现卓越
基于ResNet的分割网络
- 许多分割网络（如DeepLab系列）使用ResNet作为编码器部分
- ResNet的深层特征提取能力为分割任务提供了丰富的语义信息
- 残差结构使得网络可以构建更深的编码器而不丢失细节信息
- 结合ResNet和U-Net的跳跃连接结构可以同时利用低级细节和高级语义信息

不同的计算机视觉任务基于相似的基础网络模块，发展出了适应各自需求的网络结构：

这些网络在不断的实践和改进中，通过任务特定的优化设计（如ResNet的残差块、U-Net的跳跃连接、YOLO的回归策略等），推动着计算机视觉技术的不断发展。