第五章:计算机视觉(Computer Vision)- 项目实战之目标检测实战
第一部分:图像分割理论
第一节:图像分割基础知识:定义、任务描述、应用场景、标注格式
1. 图像分割的定义
图像分割(Image Segmentation)是计算机视觉中的核心任务之一,其目标是将输入图像划分为若干具有语义或实例意义的区域,使得同一区域的像素具有相似特征,而不同区域之间差异显著。
-
低层次分割:基于颜色、纹理、边缘等视觉特征进行划分。
-
高层次分割:结合深度学习和语义信息,将图像划分为具有特定类别含义的部分。
简而言之,图像分割就是回答 "图像中的每个像素属于哪个类别?"
2. 图像分割的任务描述
根据目标和粒度的不同,图像分割主要分为以下几类任务:
-
语义分割(Semantic Segmentation)
-
将图像中的像素按语义类别进行划分。
-
例子:把道路、车辆、行人、天空分别标注出来。
-
局限:同类目标之间无法区分。
-
-
实例分割(Instance Segmentation)
-
不仅要区分类别,还要区分同一类别下的不同个体。
-
例子:分割出图像中每一辆车,而不仅仅是"车"区域。
-
-
全景分割(Panoptic Segmentation)
-
结合语义分割与实例分割。
-
同时区分 "可数目标"(车、人、动物)与 "不可数背景"(天空、草地)。
-
3. 图像分割的应用场景
图像分割在人工智能和工业界有广泛应用:
-
自动驾驶:分割道路、车道线、行人和交通标志。
-
医学影像:分割肿瘤、器官边界,辅助医生诊断。
-
遥感影像:分割建筑物、农田、河流等地理要素。
-
视频监控:精确识别人群分布与运动区域。
-
工业制造:缺陷检测、自动化分拣。
4. 图像分割的常见标注格式
图像分割的数据标注格式比目标检测更精细,主要包括:
-
像素级标注(Mask)
-
每个像素点都对应一个类别 ID,形成标签图(Label Map)。
-
常见格式:PNG、TIFF、NumPy 数组。
-
-
多边形标注(Polygon Annotation)
-
用多边形轮廓来圈定目标区域。
-
适合目标边界清晰、结构规则的任务。
-
-
RLE(Run-Length Encoding,游程编码)
-
常用于大规模数据集(如 COCO、Cityscapes)。
-
通过记录连续像素的类别,实现压缩存储。
-
小结 :
图像分割是一项 像素级别 的视觉任务,区别于图像分类(图像整体标签)和目标检测(目标级别边框),它要求对图像中的每个像素进行精确分类。常见任务有语义分割、实例分割和全景分割,应用广泛且标注格式多样。