深度学习目标检测模型

深度学习目标检测模型主要分为 二阶段检测器（Two-Stage） 、一阶段检测器（One-Stage） 两大类，此外还有无锚框（Anchor-Free）、轻量化、Transformer 基等衍生方向的模型。以下是主流模型的核心分类与特点：

核心逻辑：先生成候选区域（Region Proposal），再对候选区域做分类与边框回归，精度高但速度相对较慢。

R-CNN
- 目标检测领域深度学习的开山之作，将 CNN 引入目标检测。
- 流程：选择性搜索生成候选框 → CNN 提取特征 → SVM 分类 → 线性回归修正边框。
- 缺点：速度慢、重复计算多、需大量存储空间。
Fast R-CNN
- 改进 R-CNN 的核心问题，共享卷积特征，避免重复计算。
- 流程：整张图卷积提取特征 → 候选框映射到特征图 → ROI Pooling 统一尺寸 → 分类+回归多任务学习。
- 缺点：候选框生成仍依赖选择性搜索，速度瓶颈未完全解决。
Faster R-CNN
- 二阶段检测器的标杆模型，用 RPN（Region Proposal Network）代替选择性搜索，实现端到端训练。
- 核心创新：RPN 与检测网络共享卷积特征，同时完成候选框生成和目标检测。
- 特点：精度高，是后续很多改进模型的基础，但实时性较差，不适合移动端。

核心逻辑：直接从图像中预测目标的类别和位置，无候选区域生成步骤，速度快，适合实时场景。

YOLO 系列
- 全称 You Only Look Once，实时检测的代表，版本迭代快，应用最广泛。
- YOLOv1：首创端到端实时检测，将检测转化为回归问题，但小目标检测效果差。
- YOLOv3：引入残差网络、多尺度检测、锚框机制，大幅提升精度和小目标性能。
- YOLOv5：工程化优化极致，兼顾速度与精度，支持快速部署，社区生态丰富。
- YOLOv8：最新版本，支持检测、分类、分割多任务，采用 Anchor-Free 思路，训练效率和推理速度进一步提升。
SSD（Single Shot MultiBox Detector）
- 结合 YOLO 的回归思路和 Faster R-CNN 的锚框机制，多尺度特征图检测，适合不同大小的目标。
- 特点：速度优于 Faster R-CNN，精度优于早期 YOLO，但对小目标检测能力弱于后续 YOLO 版本。
RetinaNet
- 解决一阶段检测器的 正负样本不平衡 问题，提出 Focal Loss。
- 核心创新：Focal Loss 通过降低易分样本的权重，让模型更关注难分样本，大幅提升精度，媲美二阶段模型。

核心逻辑：摒弃预设锚框，直接预测目标的关键点或中心，避免锚框设计的超参数调优，简化流程。

CornerNet
- 首次提出 Anchor-Free 思路，检测目标的左上角和右下角关键点，通过关键点配对实现目标检测。
- 特点：无需锚框，对目标形状适应性强，但配对过程复杂，速度较慢。
CenterNet
- 简化 CornerNet 的思路，检测目标的中心点，同时预测目标的宽高和偏移量。
- 特点：结构简单、速度快，小目标检测效果好，适合实时场景。

核心逻辑：引入 Transformer 的注意力机制，打破卷积的局部感受野限制，适合长距离依赖建模。

DETR（Detection Transformer）
- 首个纯 Transformer 目标检测模型，端到端输出检测结果，无需 NMS（非极大值抑制）后处理。
- 流程：CNN 提取特征 → Transformer Encoder 编码 → Transformer Decoder 直接预测目标集合。
- 特点：创新思路，但训练收敛慢，小目标检测效果有待提升。
YOLOv11/DETR 改进版
- 结合 YOLO 的高效性和 Transformer 的注意力机制，兼顾速度与全局特征提取能力。

针对算力受限场景优化，牺牲少量精度换取速度和低功耗。