自动驾驶数据集三剑客：nuScenes、nuImages 与 nuPlan 的技术矩阵与生态协同

1、引言

随着自动驾驶技术向全栈化迈进，Motional 团队构建了涵盖 3D感知、2D检测 及 规划决策 的数据集矩阵，为自动驾驶系统提供了从环境感知到行为决策的全链路支持。
nuScenes：多模态 3D 感知的行业标杆
nuImages：大规模 2D 图像标注与时空信息拓展
nuPlan ：闭环验证下的长时规划与决策测试平台
三者相辅相成，形成了从单帧理解到长期决策的技术闭环，加速了自动驾驶算法的研发与落地。

nuScenes -- 3D 感知标杆
- 核心任务：在复杂场景中实现多模态（激光雷达、摄像头、雷达融合）的 3D 检测与语义分割
- 数据特点：精选 1000 个场景，提供 23 类物体的 3D 边界框以及点云语义标注
nuImages -- 2D 视觉的时空扩展
- 核心任务：构建大规模 2D 图像实例分割与视频理解数据集，重点覆盖长尾场景
- 数据特点 ：
  - 93,000 张关键帧图像（涵盖雨雪、夜间等复杂天气条件）
  - 超过 80 万实例分割标注及 10 万张语义分割（可行驶区域）
  - 每个场景配有前后 13 帧的时序图像（2Hz 采样），支持动态目标分析
nuPlan -- 规划决策的闭环测试平台
- 核心任务：实现长时轨迹预测与复杂交互决策的闭环验证
- 数据特点：覆盖 1200 小时真实驾驶数据，标注包括四城交通信号及各类挑战性场景，为规划与决策算法提供丰富素材
- 项目地址 ：GitHub - motional/nuplan-devkit: The devkit of the nuPlan dataset.

维度	nuScenes	nuImages	nuPlan
数据规模	1000 场景（约 15 小时）	93K 张图像（覆盖 500+ 日志）	1200 小时驾驶数据
传感器配置	6 路摄像头、1 台激光雷达、5 路雷达、IMU/GPS	6 路摄像头（支持时序图像采集）	8 路摄像头、5 台激光雷达、IMU/GPS
标注重点	3D 边界框、点云语义	2D 实例/语义分割及属性标注	驾驶轨迹、地图语义、交通灯状态
场景特性	高密度交通场景（每场景 20 秒左右）	主动筛选长尾场景（雨雪、夜间等复杂条件）	自然驾驶场景（涵盖常规与极端情况）
地理覆盖	波士顿、新加坡	波士顿、新加坡（附带扩展日志）	波士顿、匹兹堡、拉斯维加斯、新加坡

感知层互补
- 2D-3D 融合预训练：利用 nuImages 丰富的实例分割标注，提升 nuScenes 3D 检测模型的泛化能力
- 时序信息融合：nuImages 提供的 13 帧时序数据有助于构建视频目标检测算法，与 nuScenes 的 2Hz 标注形成优势互补
规划层赋能
- 场景泛化素材：nuImages 中覆盖的长尾场景（如夜间行人）可为 nuPlan 提供极端情况测试数据
- 仿真环境输入：通过 nuImages 语义分割结果，构建更真实的仿真场景，提升 nuPlan 中规划算法的鲁棒性
工具链整合
- 统一数据格式：三大数据集采用相似的关系型数据库结构，有效降低多任务协同开发的门槛
- 可视化协同：结合 nuScenes 的 WebGL 查看器与 nuPlan 的 nuBoard，实现 2D/3D 数据的联动分析

nuScenes -- 3D 感知核心验证平台
- 主要任务 ：
  - 多模态 3D 目标检测（车辆、行人等）
  - 点云语义分割（涵盖 32 类标签）
- 评估指标：mAP（3D 检测）、IoU（分割）、AMOTA（跟踪）
nuImages -- 2D 视觉长尾挑战库
- 主要任务 ：
  - 实例分割（23 类前景目标及可行驶区域）
  - 视频目标检测（注重时序一致性）
  - 属性识别（如行人姿态、车辆状态）
- 评估指标：COCO 风格 AP（实例分割）、VPQ（视频全景质量）
nuPlan -- 规划决策闭环考场
- 主要任务 ：
  - 无保护左转决策测试
  - 密集车流中的切入与交互决策
- 评估体系：碰撞率、乘坐舒适性（加速度/抖动）、规则遵守率等

nuScenes、nuImages 与 nuPlan 构成的"感知-检测-规划"数据三角，为自动驾驶技术研发提供了从环境理解到行为决策的全链路支持。未来的发展方向可能包括：

这一数据集矩阵将持续推动自动驾驶系统在复杂场景下的稳定性和泛化能力，为全行业的技术落地提供有力支撑。