自动驾驶的同学看过来：DriveLM：世界首个语言+自动驾驶全栈开源数据集

xuxu11162023-11-03 13:55

DriveLM：世界首个语言+自动驾驶全栈开源数据集，旨在借助大语言模型和海量自然语言数据集，构筑复杂场景下安全、精准、可解释的自动驾驶系统，突破现有自动驾驶推理能力上限，数据集已开源！

DriveLM提供了量化的推理能力评估标准，改变了模型的结构化推理（Structured-reasoning）或思维图（Graph of Thoughts）能力难以量化评估的现状。如下图所示，DriveLM提供了从物体识别、物体运动状态判断到物体未来运动轨迹预测、自车运动规划的完整逻辑链条，确保了整个决策过程中每一步的合理性和可解释性。

DriveLM是一个基于nuScenes自动驾驶数据集构建的、以关键帧描述+问答对（Description+Q&A）为核心的数据集。

数据集中的问答对主要可以分为三类：感知（Perception）、预测（Prediction）和规划（Planning）。感知部分着重于询问物体相对自车的位置或运动状态；预测部分询问车辆或行人的未来可能行为和状态；规划部分询问自车可以采取的行动。

整个数据集分为训练集和验证集两部分，训练集共包含697个场景，验证集包含150个场景。每个场景包含大约40帧（采样频率约为2赫兹），标注员会在其中选择4-8个关键帧进行标注。

代码地址：https://github.com/OpenDriveLab/DriveLM

项目地址：https://opendrivelab.github.io/DriveLM/

更多论文创新点加微信群：Lh1141755859

公众号：CV算法小屋