【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准

一、前言

二、Cityscapes数据集是什么

（一）基本定义

（二）核心任务

[五、类别体系（Label Classes）](#五、类别体系（Label Classes）)

七、Cityscapes在自动驾驶中的作用

[（二）Pixel Accuracy](#（二）Pixel Accuracy)

（三）mIoU

十五、Cityscapes在自动驾驶系统中的位置

一、前言

在自动驾驶与城市视觉理解领域，有一个绕不开的数据集：

复制代码

Cityscapes

它几乎是语义分割任务中"城市道路场景"的标准基准之一，被广泛用于：

自动驾驶感知系统
语义分割模型评估（U-Net / DeepLab / SegFormer）
城市环境理解研究

如果说 ImageNet 是分类任务的标杆，那么：

复制代码

Cityscapes 就是城市街景语义分割的标杆数据集

二、Cityscapes数据集是什么

（一）基本定义

Cityscapes 是一个：

复制代码

用于城市街景语义理解的高质量像素级标注数据集

（二）核心任务

主要支持：

语义分割（Semantic Segmentation）
实例分割（Instance Segmentation）
目标检测（部分扩展任务）

（三）数据来源

数据采集自：

德国及欧洲多个城市
真实道路驾驶场景
多天气、多光照条件

三、数据集规模

（一）基础规模

Cityscapes包含：

5000张高质量精细标注图像
20000张粗标注图像

（二）划分

复制代码

Train：2975张
Val：500张
Test：1525张（无公开标签）

（三）特点

复制代码

高分辨率 + 精细标注 + 城市场景复杂

四、数据内容组成

（一）图像类型

Cityscapes提供：

左摄像头图像（Left Image）
右摄像头图像（Right Image）

（二）分辨率

复制代码

1024 × 2048

属于高分辨率语义分割数据集。

（三）标注类型

像素级语义标签
实例级标签
道路区域标注

五、类别体系（Label Classes）

Cityscapes定义了多种语义类别：

（一）19个主类别（常用）

复制代码

road, sidewalk, building, wall, fence, pole,
traffic light, traffic sign, vegetation,
terrain, sky, person, rider, car,
truck, bus, train, motorcycle, bicycle

（二）类别特点

城市道路核心目标
自动驾驶关键感知对象

六、标注特点

（一）像素级精细标注

每个像素都有类别ID：

复制代码

Pixel → Class Label

（二）实例级区分

同一类别不同实例：

多辆车
多个人

（三）复杂边界

遮挡严重
小目标密集

七、Cityscapes在自动驾驶中的作用

（一）感知系统基础

用于训练：

语义分割模型
环境理解模块

（二）场景理解

模型需要理解：

道路在哪里
行人在哪里
车辆在哪里

（三）辅助决策

为：

规划路径
避障
车道保持

提供输入

八、典型任务：语义分割

（一）输入输出

复制代码

输入：街景图像
输出：每个像素类别

（二）示例输出类别

road（道路）
car（车辆）
pedestrian（行人）

（三）评估指标

常用：

mIoU=\frac{1}{C}\sum IoU_c

九、Cityscapes难点分析

（一）高分辨率

复制代码

计算成本高

（二）类别不均衡

road占比大
small objects占比小

（三）遮挡严重

行人被车辆遮挡
交通标志部分不可见

（四）小目标检测困难

traffic sign
pole

十、Cityscapes与其他数据集对比

数据集	特点
PASCAL VOC	小规模
COCO	通用检测
Cityscapes	城市街景
KITTI	自动驾驶多任务

十一、Cityscapes应用模型

（一）经典模型

FCN
U-Net
DeepLab v3+
PSPNet

（二）现代模型

SegFormer
Mask2Former
Swin Transformer

十二、数据预处理流程

（一）基本流程

复制代码

读取图像 → Resize → Normalize → 转Tensor

（二）增强方法

Random Crop
Horizontal Flip
Color Jitter

（三）注意点

复制代码

增强必须同步作用于image和mask

十三、训练流程

（一）步骤

复制代码

Dataset → DataLoader → Model → Loss → Backprop

（二）常用损失函数

Cross Entropy Loss
Dice Loss
Focal Loss

十四、评估指标

（一）IoU

IoU=\frac{Intersection}{Union}

（二）Pixel Accuracy

复制代码

预测正确像素 / 总像素

（三）mIoU

复制代码

所有类别IoU平均值

十五、Cityscapes在自动驾驶系统中的位置

（一）感知层

语义分割
实例分割

（二）决策层输入

提供结构化环境信息：

可行驶区域
障碍物
行人位置

（三）路径规划

车道识别
安全区域划分

十六、典型应用场景

（一）自动驾驶

城市道路理解
行人检测

（二）智能交通

交通流分析
道路结构识别

（三）地图构建

HD Map生成
环境建模

十七、Cityscapes的意义

Cityscapes不仅仅是一个数据集，它代表的是：

复制代码

城市级视觉理解的标准问题定义

核心价值

高质量标注
真实驾驶场景
标准评估体系

十八、总结

Cityscapes是自动驾驶领域最重要的语义分割数据集之一，它以高分辨率城市街景为核心，提供了精细的像素级标注，是评估语义分割模型能力的重要基准。

本文系统讲解了：

1、Cityscapes基本概念；

2、数据规模与结构；

3、类别体系；

4、标注特点；

5、自动驾驶应用；

6、语义分割任务；

7、评估指标；

8、常见难点；

9、训练流程；

10、应用场景。

可以将Cityscapes理解为：

"一个用于衡量自动驾驶视觉感知能力的城市级语义理解标准数据集，是现实道路场景建模的核心基准之一。"

掌握Cityscapes，就掌握了自动驾驶视觉理解的基础入口。