目录
[五、类别体系(Label Classes)](#五、类别体系(Label Classes))
[(二)Pixel Accuracy](#(二)Pixel Accuracy)
一、前言
在自动驾驶与城市视觉理解领域,有一个绕不开的数据集:
Cityscapes
它几乎是语义分割任务中"城市道路场景"的标准基准之一,被广泛用于:
-
自动驾驶感知系统
-
语义分割模型评估(U-Net / DeepLab / SegFormer)
-
城市环境理解研究
如果说 ImageNet 是分类任务的标杆,那么:
Cityscapes 就是城市街景语义分割的标杆数据集
二、Cityscapes数据集是什么
(一)基本定义
Cityscapes 是一个:
用于城市街景语义理解的高质量像素级标注数据集
(二)核心任务
主要支持:
-
语义分割(Semantic Segmentation)
-
实例分割(Instance Segmentation)
-
目标检测(部分扩展任务)
(三)数据来源
数据采集自:
-
德国及欧洲多个城市
-
真实道路驾驶场景
-
多天气、多光照条件
三、数据集规模
(一)基础规模
Cityscapes包含:
-
5000张高质量精细标注图像
-
20000张粗标注图像
(二)划分
Train:2975张
Val:500张
Test:1525张(无公开标签)
(三)特点
高分辨率 + 精细标注 + 城市场景复杂
四、数据内容组成
(一)图像类型
Cityscapes提供:
-
左摄像头图像(Left Image)
-
右摄像头图像(Right Image)
(二)分辨率
1024 × 2048
属于高分辨率语义分割数据集。
(三)标注类型
-
像素级语义标签
-
实例级标签
-
道路区域标注
五、类别体系(Label Classes)
Cityscapes定义了多种语义类别:
(一)19个主类别(常用)
road, sidewalk, building, wall, fence, pole,
traffic light, traffic sign, vegetation,
terrain, sky, person, rider, car,
truck, bus, train, motorcycle, bicycle
(二)类别特点
-
城市道路核心目标
-
自动驾驶关键感知对象
六、标注特点
(一)像素级精细标注
每个像素都有类别ID:
Pixel → Class Label
(二)实例级区分
同一类别不同实例:
-
多辆车
-
多个人
(三)复杂边界
-
遮挡严重
-
小目标密集
七、Cityscapes在自动驾驶中的作用
(一)感知系统基础
用于训练:
-
语义分割模型
-
环境理解模块
(二)场景理解
模型需要理解:
-
道路在哪里
-
行人在哪里
-
车辆在哪里
(三)辅助决策
为:
-
规划路径
-
避障
-
车道保持
提供输入
八、典型任务:语义分割
(一)输入输出
输入:街景图像
输出:每个像素类别
(二)示例输出类别
-
road(道路)
-
car(车辆)
-
pedestrian(行人)
(三)评估指标
常用:
mIoU=\frac{1}{C}\sum IoU_c
九、Cityscapes难点分析
(一)高分辨率
计算成本高
(二)类别不均衡
-
road占比大
-
small objects占比小
(三)遮挡严重
-
行人被车辆遮挡
-
交通标志部分不可见
(四)小目标检测困难
-
traffic sign
-
pole
十、Cityscapes与其他数据集对比
| 数据集 | 特点 |
|---|---|
| PASCAL VOC | 小规模 |
| COCO | 通用检测 |
| Cityscapes | 城市街景 |
| KITTI | 自动驾驶多任务 |
十一、Cityscapes应用模型
(一)经典模型
-
FCN
-
U-Net
-
DeepLab v3+
-
PSPNet
(二)现代模型
-
SegFormer
-
Mask2Former
-
Swin Transformer
十二、数据预处理流程
(一)基本流程
读取图像 → Resize → Normalize → 转Tensor
(二)增强方法
-
Random Crop
-
Horizontal Flip
-
Color Jitter
(三)注意点
增强必须同步作用于image和mask
十三、训练流程
(一)步骤
Dataset → DataLoader → Model → Loss → Backprop
(二)常用损失函数
-
Cross Entropy Loss
-
Dice Loss
-
Focal Loss
十四、评估指标
(一)IoU
IoU=\frac{Intersection}{Union}
(二)Pixel Accuracy
预测正确像素 / 总像素
(三)mIoU
所有类别IoU平均值
十五、Cityscapes在自动驾驶系统中的位置
(一)感知层
-
语义分割
-
实例分割
(二)决策层输入
提供结构化环境信息:
-
可行驶区域
-
障碍物
-
行人位置
(三)路径规划
-
车道识别
-
安全区域划分
十六、典型应用场景
(一)自动驾驶
-
城市道路理解
-
行人检测
(二)智能交通
-
交通流分析
-
道路结构识别
(三)地图构建
-
HD Map生成
-
环境建模
十七、Cityscapes的意义
Cityscapes不仅仅是一个数据集,它代表的是:
城市级视觉理解的标准问题定义
核心价值
-
高质量标注
-
真实驾驶场景
-
标准评估体系
十八、总结
Cityscapes是自动驾驶领域最重要的语义分割数据集之一,它以高分辨率城市街景为核心,提供了精细的像素级标注,是评估语义分割模型能力的重要基准。
本文系统讲解了:
1、Cityscapes基本概念;
2、数据规模与结构;
3、类别体系;
4、标注特点;
5、自动驾驶应用;
6、语义分割任务;
7、评估指标;
8、常见难点;
9、训练流程;
10、应用场景。
可以将Cityscapes理解为:
"一个用于衡量自动驾驶视觉感知能力的城市级语义理解标准数据集,是现实道路场景建模的核心基准之一。"
掌握Cityscapes,就掌握了自动驾驶视觉理解的基础入口。