本梳理沿用图像分割的同构知识框架 ,按传统方法→深度学习里程碑→架构迭代→前沿方向 展开,完整覆盖论文脉络、模型优化点、数据集、评价指标、损失函数、工程落地 ,并重点对齐智能驾驶感知场景的检测需求,可作为技术选型、面试备考、能力提升的标准化工具书。
核心前置:目标检测的定义、分类与智驾核心场景
目标检测是在图像/点云中定位目标位置+识别目标类别 的任务,输出为(x1,y1,x2,y2,class,conf),是智驾感知的核心基础模块。
任务分类
| 分类维度 | 类型 | 核心特点 | 智驾应用 |
|---|---|---|---|
| 检测架构 | 两阶段(Two-stage) | 先生成候选框→再分类回归,精度高 | 高精度泊车、远端障碍物检测 |
| 单阶段(One-stage) | 直接回归框+类别,速度快 | 城市/高速实时障碍物检测 | |
| 锚框设计 | Anchor-Based | 依赖预设锚框,适配性强 | 经典落地检测方案 |
| Anchor-Free | 无预设锚框,结构简洁 | 轻量化域控部署 | |
| 主干网络 | CNN基 | 计算高效、落地成熟 | 量产智驾主流 |
| Transformer基 | 全局建模、精度更高 | 高阶智驾预研/量产 |
智驾专属检测目标
车辆、行人、非机动车、交通灯、交通标志、锥桶、护栏、车道线端点、可行驶区域角点等;核心要求:实时性≥30FPS、小目标/遮挡鲁棒、远距定位准、域控轻量化。
第一章 传统目标检测方法(2000--2014)
核心逻辑 :滑动窗口枚举区域 + 手工特征提取 + 传统分类器,无深度学习端到端学习。
1.1 核心技术模块
-
滑动窗口(Sliding Window)
-
原理:固定尺度窗口遍历全图,生成候选区域
-
局限:计算冗余、尺度适配差、效率极低
-
-
手工特征工程
-
Haar特征:人脸检测专用,计算快,Viola-Jones框架
-
HOG特征:梯度方向直方图,对行人检测鲁棒,DPM核心特征
-
SIFT/SURF/ORB:尺度不变特征,用于多视角匹配
-
-
传统分类器
- SVM、AdaBoost、随机森林,对窗口特征做二分类/多分类
1.2 经典算法
-
Viola-Jones(2001)
-
优化点:积分图加速Haar计算、级联分类器、自适应阈值
-
意义:首个实时人脸检测方案,奠定滑动窗口范式
-
-
DPM(Deformable Parts Model, 2008)
-
论文:《Discriminatively Trained Deformable Part Models》
-
优化点:部件建模、形变惩罚、多尺度混合模型
-
意义:PASCAL VOC长期SOTA,传统检测巅峰
-
局限:手工设计复杂、泛化差、无法处理遮挡/复杂场景
-
1.3 传统方法整体局限
-
依赖人工特征,无法学习高层语义
-
滑动窗口效率极低,无法满足智驾实时性
-
遮挡、小目标、多尺度场景失效
-
无端到端优化,工程调参成本极高
第二章 深度学习检测开端:R-CNN系两阶段架构(2014--2015)
核心定位 :首次将CNN引入检测,奠定两阶段检测范式,是检测从传统→深度学习的里程碑。
2.1 R-CNN(2014)
-
论文:《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》
-
优化点:
-
Selective Search替代滑动窗口,生成2000候选框
-
CNN(AlexNet)提取候选框特征,替代手工特征
-
SVM分类+线性回归精修框
-
-
局限:多阶段训练、重复特征计算、推理慢(47s/图)、无法端到端
-
意义:CNN检测开山之作,mAP从传统30%+跃升至VOC2007 66%
2.2 Fast R-CNN(2015)
-
论文:《Fast R-CNN》
-
优化点:
-
共享卷积特征:全图只提一次特征,候选框映射到特征图
-
ROI Pooling:统一候选框特征尺寸
-
端到端训练:分类+回归多任务损失
-
-
意义:推理速度提升100+倍,奠定两阶段训练范式
2.3 Faster R-CNN(2015)
-
论文:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》
-
优化点:
-
RPN(Region Proposal Network):神经网络生成候选框,替代Selective Search
-
Anchor预设框:覆盖多尺度/长宽比,解决尺度适配
-
RPN与检测网络共享主干,完全端到端
-
-
意义:首个实时深度学习检测方案,两阶段检测标准架构,智驾高精度检测的基础
-
智驾适配:作为早期量产高精度检测方案,用于远端障碍物、泊车小目标
第三章 两阶段检测迭代优化(2016--2020)
围绕多尺度特征、框回归精度、正负样本平衡做工程化优化,进一步提升精度。
3.1 FPN(2016)
-
论文:《Feature Pyramid Networks for Object Detection》
-
优化点:
-
自顶向下+横向连接,构建多尺度特征金字塔
-
浅层特征管小目标,深层特征管大目标
-
-
意义:解决小目标检测差的核心问题,所有现代检测模型标配
-
智驾价值:大幅提升远端行人/锥桶等小目标召回率
3.2 Mask R-CNN(2017)
-
论文:《Mask R-CNN》
-
优化点:
-
RoIAlign替代RoIPool,消除量化误差
-
新增Mask分支,同步实现检测+实例分割
-
-
意义:检测+分割统一框架,智驾用于障碍物实例级感知
3.3 Cascade R-CNN(2018)
-
论文:《Cascade R-CNN: Delving into High Quality Object Detection》
-
优化点:多级IoU阈值的级联回归,逐步提升框质量
-
意义:高IoU阈值下精度大幅提升,智驾用于精准泊车框定位
3.4 其他两阶段优化
-
Libra R-CNN:平衡特征采样、平衡IoU损失
-
Grid R-CNN:网格定位,提升框精度
-
共同意义:两阶段精度持续登顶,但速度仍弱于单阶段,适合智驾高精度非实时场景
第四章 单阶段检测崛起:实时性优先架构(2016--2018)
核心定位 :舍弃候选框阶段,直接回归框+类别,速度优先 ,是智驾量产主流方案。
4.1 YOLOv1(2016)
-
论文:《You Only Look Once: Unified, Real-Time Object Detection》
-
优化点:
-
检测→回归问题,S×S网格直接预测框+类别
-
全图一次性推理,速度极快(45FPS)
-
-
局限:小目标/密集目标差、框精度低
-
意义:单阶段检测开山之作,定义实时检测范式
4.2 SSD(2016)
-
论文:《SSD: Single Shot MultiBox Detector》
-
优化点:
-
多尺度特征图检测,融合YOLO回归+FPN多尺度
-
预设先验框,适配不同尺度目标
-
-
意义:平衡速度与精度,早期智驾嵌入式部署首选
4.3 RetinaNet(2017)
-
论文:《Focal Loss for Dense Object Detection》
-
优化点:
-
Focal Loss:解决单阶段正负样本不平衡(背景占比99%+)
-
基于FPN的单阶段架构,精度追平两阶段
-
-
意义:单阶段精度首次比肩两阶段,奠定现代单阶段损失范式
-
智驾价值:Focal Loss成为智驾检测标配损失
第五章 单阶段检测工程化迭代(2019--至今)
向轻量化、高精度、易部署 演进,是智驾域控量产绝对主流。
5.1 YOLO系列迭代(工业界标杆)
| 版本 | 核心优化 | 智驾价值 |
|---|---|---|
| YOLOv2 | Anchor聚类、BatchNorm、多尺度训练 | 收敛更快、适配智驾目标尺度 |
| YOLOv3 | Darknet53+FPN、多尺度预测 | 小目标提升,落地成熟 |
| YOLOv5/v7 | 深度可分离卷积、模型缩放、自适应锚框 | 轻量化版本(n/s)适配域控,工程化极强 |
| YOLOX | Anchor-Free、Decoupled Head、SimOTA | 无锚框设计,部署更简洁 |
| YOLOv8/v9 | 动态架构、梯度裁剪、轻量化Transformer | 精度速度再平衡,支持多任务 |
5.2 EfficientDet(2020)
-
论文:《EfficientDet: Scalable and Efficient Object Detection》
-
优化点:BiFPN加权特征融合、复合缩放、EfficientNet主干
-
意义:精度/算力比最优,智驾用于算力受限域控
5.3 PP-YOLO/Tiny-YOLO系列
-
优化点:蒸馏、剪枝、量化、算子融合
-
意义:专为嵌入式/域控优化,满足智驾**≥30FPS**硬约束
第六章 Anchor-Free 目标检测(2019--至今)
摆脱锚框预设,简化结构,降低工程调参成本,适合轻量化部署。
6.1 KeyPoint-Based(关键点法)
-
CornerNet(2018):检测目标左上/右下角点,配对生成框
-
CenterNet(2019):检测目标中心点+宽高,无锚框无NMS
-
优化点:Heatmap回归,结构极简,推理快
-
智驾适配:泊车场景小目标检测,无锚框调参简单
-
6.2 Center-Based(中心法)
-
FCOS(2019):逐像素回归位置,全卷积Anchor-Free
-
优化点:无锚框超参,适配多尺度,精度追平Anchor-Based
-
意义:工业界轻量化部署首选,减少锚框聚类/匹配工程成本
6.3 智驾适配结论
Anchor-Free更适合量产域控:无锚框超参、结构简洁、量化友好、推理延迟低。
第七章 Transformer 目标检测(2020--至今)
利用自注意力建模全局依赖,解决长距离/遮挡问题,向端到端无NMS演进。
7.1 DETR(2020)
-
论文:《End-to-End Object Detection with Transformers》
-
优化点:
-
Transformer编码器+解码器,直接输出目标集合
-
匈牙利算法匹配,无需NMS
-
-
局限:收敛慢、小目标差、计算量大
-
意义:首个端到端Transformer检测,消除后处理NMS
7.2 Deformable DETR(2021)
-
优化点:可变形注意力,仅关注关键区域,收敛快、小目标提升
-
意义:Transformer检测落地基础,智驾高阶感知预研
7.3 混合架构(CNN+Transformer)
-
YOLOv9/10、MobileViT-OD:CNN提局部特征,Transformer做全局建模
-
智驾适配:平衡精度与速度,逐步进入高阶量产方案
第八章 目标检测核心配套体系(工具书核心)
8.1 经典数据集(通用+智驾专属)
通用数据集(预训练用)
| 数据集 | 样本量 | 类别 | 标注 | 用途 |
|---|---|---|---|---|
| PASCAL VOC07/12 | 5k/11k | 20 | 框+类别 | 早期算法验证 |
| MS COCO2017 | 12w | 80 | 框+实例 | 现代检测标准benchmark |
智驾专属数据集(量产微调用)
| 数据集 | 场景 | 目标类型 | 特点 | 智驾价值 |
|---|---|---|---|---|
| KITTI | 城市/高速 | 车/人/骑 | 激光雷达+图像 | 经典智驾检测基准 |
| BDD100K | 多天气/昼夜 | 全类型障碍物 | 10万级多场景 | 鲁棒性训练 |
| Waymo Open | 高阶智驾 | 密集障碍物 | 多传感器同步 | 量产级训练 |
| nuScenes | 全气候 | 32类目标 | 激光+雷达+相机 | 多模态融合检测 |
8.2 核心评价指标
精度指标
-
IoU/GIoU/DIoU/CIoU:框重叠度,回归损失基础
-
AP@[0.5:0.95]:COCO标准,多IoU阈值平均精度
-
mAP :各类别AP均值,检测金标准
-
AR:平均召回率,衡量漏检率(智驾核心)
-
小目标AP:智驾远端障碍物关键指标
工程指标
-
FPS、参数量、FLOPs、延迟(P99)、量化精度损失
-
智驾硬指标:域控端P99延迟≤33ms(30FPS)
8.3 损失函数体系
分类损失
-
交叉熵(CE):基础分类损失
-
Focal Loss:单阶段标配,解决正负样本不平衡
-
Label Smoothing CE:防止过拟合,提升鲁棒性
回归损失
-
Smooth L1:Fast R-CNN提出,抗异常值
-
GIoU/DIoU/CIoU Loss :考虑框重叠/中心距/宽高比,智驾首选
-
SIoU Loss:引入角度惩罚,收敛更快
匹配损失
-
匈牙利损失:DETR系列,端到端框匹配
-
SimOTA:YOLOX,动态正负样本匹配
第九章 训练优化与智驾工程落地
9.1 训练核心优化
-
迁移学习:COCO预训练→智驾数据集微调
-
智驾专属数据增强
-
允许:亮度/对比度、高斯噪声、HSV扰动、水平翻转
-
禁止:随机旋转/垂直翻转(破坏智驾几何先验)
-
专用:遮挡复制粘贴、小目标上采样、雾天/夜间仿真
-
-
锚框优化:基于智驾目标聚类,适配车载相机视角
-
难例挖掘(OHEM):筛选遮挡/远端/误检样本,提升鲁棒性
-
多尺度训练:320×320→640×640,适配不同距离目标
9.2 智驾轻量化部署
-
模型轻量化
-
主干替换:MobileNetv3、ShuffleNetv2、EfficientNet-Lite
-
结构剪枝:通道剪枝、层剪枝
-
量化:FP16(首选,损失<2%)、INT8(校准集补偿)
-
蒸馏:高精度教师模型→轻量学生模型
-
-
部署流程
-
PyTorch→ONNX→TensorRT(Orin)/TNN(地平线)/MNN(黑芝麻)
-
算子融合、消除冗余节点、静态输入尺寸
-
-
C++工程优化
-
多线程:图像读取→预处理→推理→后处理→发送
-
内存复用:预分配显存/内存,避免频繁申请
-
智能指针:防止内存泄漏
-
9.3 后处理优化(智驾必备)
-
NMS系列:DIoU-NMS/Soft-NMS,解决密集目标漏检
-
框平滑:卡尔曼滤波,消除帧间抖动
-
智驾先验过滤
-
尺寸过滤:剔除不符合车辆/行人物理尺寸的框
-
位置过滤:剔除天空/车底无效区域框
-
置信度动态阈值:近高远大,平衡精度与召回
-
第十章 目标检测发展趋势(智驾专属)
-
BEV视角检测
-
图像/点云投影至BEV空间,统一感知视角,适配规划控制
-
代表:BEVFormer、PETR、DETR3D
-
-
多传感器融合检测
- 相机+激光+毫米波特征级/决策级融合,解决恶劣天气鲁棒性
-
检测-分割-跟踪一体化
- 单模型多任务,减少算力开销,智驾量产主流方向
-
端到端无后处理
- 完全舍弃NMS,Transformer+匈牙利匹配,降低延迟
-
自监督/弱监督检测
- 减少智驾海量标注成本,利用车载回传数据自训练
-
域控定制化模型
- 针对Orin/地平线/黑芝麻做算子定制、量化优化,极致压榨算力
工具书使用建议
-
方案选型
-
量产实时:YOLOv8s/n、YOLOX-tiny、FCOS-Lite(Anchor-Free)
-
高精度泊车:Cascade R-CNN、Deformable DETR轻量版
-
多传感器融合:BEV架构+FPN/Transformer
-
-
损失函数 :智驾统一用
Focal Loss + CIoU/SIoU Loss -
部署:优先FP16量化+TensorRT,P99延迟达标后再考虑INT8
-
迭代:持续从实车回传难例,做增量训练,提升恶劣场景鲁棒性
-
面试备考 :按传统→R-CNN→YOLO/SSD→Anchor-Free→Transformer 脉络,重点掌握优化点、智驾适配、工程落地