CV三大核心任务：目标检测、图像分割、关键点检测

计算机视觉的 "感知三剑客"

当自动驾驶汽车识别出前方横穿马路的行人（检测）、区分出车道线与路面（分割）、判断行人手臂摆动姿态（关键点检测）时，正是这三大任务在协同工作。简单来说：

目标检测："找东西 + 贴标签"------ 定位图像中目标的位置（用边界框标记）并识别类别
图像分割："像素级分类"------ 给每个像素分配类别标签，实现目标与背景的精确分离
关键点检测："抓特征锚点"------ 定位目标的关键特征点（如人脸的眼睛、人体的关节）

三者构成计算机视觉的感知基石，从 "有没有""是什么" 升级到 "在哪里""长什么样" 的深度理解。

一、目标检测：从 "看见" 到 "定位" 的进化

1.1 技术本质与核心指标

目标检测的核心是解决 "where + what " 问题，输出格式为(x1,y1,x2,y2,class,confidence)，其中(x1,y1)(x2,y2)是边界框坐标，confidence代表预测可信度。

关键评估指标：

mAP（平均精度均值）：衡量不同类别检测精度的综合指标，越高越好
FPS（每秒帧率）：体现实时性，自动驾驶需≥30FPS，工业质检需≥50FPS

1.2 算法演进：从锚框到无锚框的跨越

传统方法阶段（2010 年前）

滑动窗口 + 特征工程：用固定大小窗口遍历图像，结合 HOG、SIFT 等手工特征分类
缺陷：速度慢（窗口数量达 10 万级）、精度低（依赖人工设计特征）

深度学习初代（2014-2017）

R-CNN 系列：开创 "候选区域 + 分类" 范式

R-CNN：先生成 2000 个候选框，再用 CNN 提取特征分类（FPS 仅 5）
Fast R-CNN：共享卷积特征，将 FPS 提升至 15
Faster R-CNN：用 RPN 网络自动生成候选框，实现端到端训练（COCO mAP 达 28.8%）

实时检测革命（2016 至今）

YOLO 系列："你只看一次" 的单阶段检测

核心创新：将检测转化为回归问题，一次性输出边界框与类别
最新进展：YOLOv10 采用 CSPNet v3 骨干网络，模型体积仅 9.8MB，COCO mAP@0.5 达 62.1%，在无人机避障系统中误检率降低 76%
DETR 家族：Transformer 赋能的端到端检测

RT-DETR：融合 CNN 与 Transformer，通过可变形注意力将计算量降为 O (N)，小样本场景性能衰减仅 5.3%，已用于特斯拉机器人视觉系统

锚框与无锚框之争

类型	代表算法	优势	缺陷
锚框 - based	Faster R-CNN	精度高	锚框参数难调
无锚框	CenterNet	速度快、适配小目标	遮挡场景鲁棒性差

二、图像分割：像素级的 "精细画像"

2.1 三大分割类型辨析

类型	核心目标	应用场景	示例
语义分割	给同类目标统一标签	自动驾驶路面识别	所有行人标为 "行人"
实例分割	区分同类目标的不同个体	人群计数	每个行人标唯一 ID
全景分割	语义 + 实例分割结合	机器人场景理解	路面（语义）+ 行人 ID

2.2 技术演进：从传统方法到 AI 驱动

传统分割阶段（2000 年前）

阈值分割：如 OTSU 算法，按灰度值划分前景背景（适合高对比度图像）
区域生长：从种子点扩散合并相似像素（易受噪声干扰）

图论与聚类阶段（2000-2010）

Graph Cuts：将图像建模为图，通过最小割实现分割（需大量计算）
SLIC 超像素：生成紧凑的图像块，减少后续计算量（至今仍用于预处理）

深度学习时代（2010 至今）

FCN（2015）：首次实现端到端语义分割，通过上采样恢复像素分辨率
U-Net（2015）：编码 - 解码架构 + 跳跃连接，成为医疗分割黄金标准，MedSAM 基于此优化后肝脏分割 Dice 系数达 0.934
DeepLab 系列：引入空洞卷积与 ASPP 模块，解决多尺度分割问题
SAM（2023）：交互式分割革命，基于 11 亿掩码的 SA-1B 数据集，支持文本 / 点 / 框提示，已集成到 Photoshop 2024

2.3 核心挑战与解决方案

小目标分割：如医疗影像中的微肿瘤，采用 U-Net++ 的嵌套结构提升细节捕捉
实时分割：MobileNet 作为骨干网络，牺牲 10% 精度换取 5 倍速度提升
弱监督分割：Grounded-SAM 结合 CLIP 模型，通过文本描述实现零样本分割，PASCAL VOC 精度达 91.3%

三、关键点检测：目标的 "骨骼定位"

3.1 技术原理与任务分类

关键点检测通过定位目标的关键特征点（如人脸 68 点、人体 17 关节），实现对目标姿态、形状的理解。按目标类型可分为：

人体姿态估计：检测关节点（如膝关节、肘关节）
人脸关键点检测：定位眼睛、鼻子等特征点
物体关键点检测：如车辆的车轮、门把手

3.2 两大技术路线对比

Top-Down（自上而下）

先用目标检测定位个体
再在单个目标内检测关键点

代表算法：Mask RCNN（将关键点建模为 one-hot mask）
优势：精度高，适合少目标场景
缺陷：速度慢（需先检测）

Bottom-Up（自下而上）

先检测全图所有关键点
再通过聚类分配给个体

代表算法：OpenPose、HigherHRNet
优势：速度快，适合人群密集场景
缺陷：易混淆相似关键点

3.3 前沿进展与应用

多任务融合：MultiTask-CenterNet 在同一网络中实现检测、分割与姿态估计，推理时间减少 40%
遮挡鲁棒性：采用注意力机制忽略遮挡区域，在 COCO 数据集上遮挡场景 AP 提升 18%
应用案例：健身 APP 的动作纠正（通过关节点计算角度）、动画制作的动作捕捉

四、三任务融合：1+1+1>3 的协同效应

4.1 经典融合模型解析

Mask RCNN（2017）

架构：在 Faster R-CNN 基础上增加分割头与关键点头
创新点：RoIAlign 替代 RoIPooling，解决像素量化误差，使分割精度提升 20%
能力扩展：可同时输出边界框、掩码与关键点，在人体关键点检测中保持三项任务性能平衡

Cascade Mask RCNN（2018）

核心改进：级联多个检测器，每个阶段用更高 IOU 阈值筛选样本
性能增益：在 COCO 数据集上实例分割 AP 较 Mask RCNN 提升 3.2 个百分点

OmniDet（2021）

多任务集大成者：融合检测、分割、关键点、深度估计等 6 大任务
鱼眼镜头适配：用 24 边多边形替代矩形框，解决畸变场景检测问题

4.2 融合的核心价值

数据效率：共享骨干网络特征，减少标注成本
性能互补：分割的像素级信息提升检测定位精度，检测的边界框约束关键点范围
工程优化：单模型替代多模型，降低部署成本（如自动驾驶感知系统体积减少 60%）

五、产业落地：从实验室到真实世界

5.1 典型应用场景

领域	检测应用	分割应用	关键点应用
自动驾驶	障碍物识别（车 / 人 / 动物）	车道线 / 路面分割	行人姿态预判
医疗影像	肿瘤检测	器官 / 病灶分割	细胞形态分析
工业质检	缺陷定位	缺陷区域分割	零件装配对齐
娱乐传媒	人脸检测	背景虚化	表情捕捉 / 动作追踪

5.2 落地挑战与工程实践

算力约束：工业场景采用模型量化（INT8），精度损失 < 2%，推理速度提升 3 倍
标注成本：用 NVIDIA Omniverse 生成合成数据，宝马将缺陷检测训练时间从 6 周缩至 72 小时
鲁棒性优化：华为 ADS 3.0 融合多传感器，异形障碍物识别准确率达 99.6%

六、未来趋势

端到端统一建模：华为盘古 CV 实现三任务统一，减少人工设计组件
多模态驱动：结合文本、语音提示，如 Grounded-SAM 通过文字 "分割红色汽车" 自动生成掩码
小样本与零样本学习：解决医疗等稀缺数据场景问题，元学习技术加速落地
3D 感知升级：从 2D 关键点到 3D 姿态估计，支撑机器人交互与 AR/VR 应用

以上均为原创。