机器学习笔记 - 用于3D物体检测的KITTI数据集的使用及说明

一、什么是 KITTI 数据集？

KITTI 是由卡尔斯鲁厄理工学院和芝加哥丰田理工学院开发的自动驾驶数据集（目前分2012和2015版本）。它是计算机视觉研究中使用的图像和 LIDAR 数据的集合，例如立体视觉、光流、视觉里程计、3D 对象检测和 3D 跟踪。

The KITTI Vision Benchmark Suitehttp://www.cvlibs.net/datasets/kitti/ KITTI Odometry 数据集是用于评估视觉里程计算法性能的基准数据集。它由从移动车辆记录的立体图像序列的集合以及车辆运动的相应地面实况数据组成。

这个项目的主要目的是建立一个具有挑战性的，来自真实世界的测试集。他们使用的数据采集车配备了如下设备。

1、一对 140万像素的彩色摄像头,Point Grey Flea2(FL2-14S3C-C),10Hz 采集频率

2、一对 140万像素的黑白摄像头,Point Grey Flea2(FL2-14S3M-C),10Hz采集频率。

3、一个激光雷达，Velodyne HDL-64E.

4、一个GPS/IMU 定位系统，OXTS RT3003。

这辆车在卡尔斯鲁厄的高速和城区的多种交通环境下收集了数据,用激光雷达提供的数据作为 ground truth，建立了面向多个测试任务的数据集。

数据集由图片对组成。一个 Stereo 图片对是两个摄像头在不同的位置同时拍摄的,Optical Flow 图片对是同一个摄像头在相邻时间点拍摄的。训练数据集有 194 对，测试数据集有 195 对，大约50%的像素有确定的偏移量数据，如图所示。

数据集由22个Stereo 图片对序列组成，一个4万多帧，覆盖 39.2 公里的里程，如图所示。

手工标注，包含轿车、厢车、卡车、行人、自行车者、电车等类别，用三维框标注物体的大小和朝向，有多种遮挡情况，并且一张图片通常有多个物体实例，如图所示。

手工标注，包含 21 个训练序列和 29 个测试序列，主要追踪的目标类型是行人和轿车，如图所示。

手工标注，包含未标明车道、标明双向单车道和标明双向多车道三种情况,289张训练图片和 290 张测试图片,ground truth 包括路面( 所有车道)和自车道，如图所示。

下面的链接是对于KITTI更详细的介绍。

https://journals.sagepub.com/doi/pdf/10.1177/0278364913491297https://journals.sagepub.com/doi/pdf/10.1177/0278364913491297 KITTI一个从大众旅行车上采集的新数据集，用于移动机器人和自动驾驶研究。总的来说，使用各种传感器模式，如高分辨率彩色和灰度立体相机、Velodyne 3D激光扫描仪和高精度GPS/IMU惯性导航系统，在10--100 Hz的频率下记录了6个小时的交通场景。

场景多种多样，捕捉真实世界的交通状况，从农村地区的高速公路到有许多静态和动态对象的市中心场景。

数据经过校准、同步和时间戳，并提供校正后的原始图像序列。数据集还包含3D轨迹形式的对象标签，为立体、光流、对象检测和其他任务提供在线基准。

KITTI数据集与以往计算机视觉领域的数据集相比有以下特点。

由无人车上常见的多种传感器收集，用LiDAR提供高精度的三维空间数据，有较好的 ground truth。

更接近实际情况，而不是用计算机图形学技术生成的。覆盖了计算机视觉在无人车驾驶上应用的多个方面。

由于这些特点，很多的研究工作基于这个数据集，一个新的算法在这个数据集上的测试结果有较高的可信度。