端到端自动驾驶的数据规模化定律

25年4月来自Nvidia、多伦多大学、NYU和斯坦福大学的论文"Data Scaling Laws for End-to-End Autonomous Driving"。

自动驾驶汽车 (AV) 栈传统上依赖于分解方法，使用单独的模块处理感知、预测和规划。然而，这种设计在模块间通信期间会引入信息丢失，增加计算开销，并可能导致复合错误。为了应对这些挑战，最近的研究提出将所有组件集成到端到端可微分模型中的架构，从而实现整体系统优化。这种转变强调数据工程而不是软件集成，只需扩大训练资源规模即可提供提高系统性能的潜力。这项工作评估一种简单的端到端驾驶架构在内部驾驶数据集上的性能，该数据集的大小从 16 到 8192 小时，包括开环指标和闭环模拟。具体来说，其研究需要多少额外的训练数据才能实现目标性能提升，例如，将运动预测准确度提高 5%。通过了解模型性能和训练数据集大小之间的关系，旨在为自动驾驶开发中的数据驱动决策提供见解。

传统上，自动驾驶系统采用模块化方法，将感知、预测和规划分成不同的组件，每个组件都根据各自的目标进行独立优化 [14, 43--45, 53, 61]。虽然这种模块化设计将自动驾驶汽车开发的工作分散到各个专业团队，但在集成过程中也带来了巨大的挑战，例如模块间信息丢失、误差叠加以及资源利用效率低下。为了突破这些限制，最近提出了端到端架构。这些模型接收传感器输入，例如激光雷达和摄像头图像，并直接输出规划的驾驶路径，将多个模块集成到一个框架中，所有组件都朝着一个统一的目标进行联合优化：运动规划。这种统一的优化方法有可能通过扩展训练资源来提升系统性能。然而，一个关键问题依然存在：在端到端自动驾驶系统中，需要多少训练数据才能实现有意义的性能提升？在自然语言处理 (NLP) 领域，大量研究已经从训练数据大小和模型性能的角度探讨了规模化规律 [1, 39, 77]。然而，在自动驾驶领域，公共数据集的规模相对有限，阻碍了类似的大规模分析。这一差距使得我们无法确定缩放如何影响基于学习的自动驾驶系统的开环性能，更重要的是，如何影响闭环性能。此外，目前尚不清楚规模化端到端驾驶架构的特定组件（例如感知或预测）是否能显著提高性能。这种缺乏明确性带来了挑战，因为收集和注释自动驾驶数据的成本很高。建立可靠的规模化规律可以让自动驾驶开发人员更好地将数据和训练投资与性能提升相结合，从而节省大量资源。

为此，本文使用一个具有代表性的端到端驾驶栈（类似于 [5] 和 [11] 等早期研究中使用的栈）来检验自动驾驶汽车模型的数据规模化规律，该栈采用模仿学习将视觉输入（即 RGB 摄像头图像）直接映射到轨迹。具体而言，使用标准开环指标，在 16 到 8192 小时驾驶数据的内部数据集上训练和评估该模型。然后，在闭环模拟器中评估其性能，其中基于规则的控制器将预测的轨迹转换为控制命令。

如图所示：在不同动作类型体现的规模化定律

注：最近的一个工作"Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving"（https://arxiv.org/abs/2412.02689）探索了端到端自动驾驶汽车系统中的数据规模化，但缺乏结构化的框架，忽略了关键分析，例如不同的规模化趋势、不同动作类型的性能差异以及模型容量效应。相比之下，本文工作建立了一种系统的方法来测量规模化行为和数据需求估计。

为了分析端到端自动驾驶的规模化规律，从超过10个国家的内部驾驶数据中整理出一个行业规模的数据集，该数据集时长超过8000小时，行驶里程超过40万公里。该数据集提供3张校正（rectified）图像，这些图像分别来自3个广角摄像头，分别朝向自动驾驶汽车的前方、左侧和右侧，分辨率为734×270，采样率为10Hz，如图所示。

车辆自身轨迹以5Hz的采样率均匀重采样，采样范围为未来3秒。为了评估规模化规律，准备不同大小的训练数据集，其大小范围从16小时到8192小时，均为2的幂次方。这种方法使数据集规模与流行的公共基准测试（例如 nuScenes [6] (15h)、WOMD [70] (574h)、Lyft [29] (1001h) 和 nuPlan [23] (1282h)）的规模保持一致，从而可以在自动驾驶研究中进行相关的比较。

为了防止跨数据分区的信息泄露，为训练、验证和测试数据集建立互斥的地理区域，主要分布在欧洲和北美，以确保空间数据的完全隔离。通过构建一个全局无向图来实现这一点，其中驾驶会话和访问过的 H3 单元表示为节点，并通过边将会话连接到各自的 H3 节点。通过识别该图中的连接组件，确定会话集群，即适合训练、验证或测试且不存在重叠风险的地理上不相交会话组。

除了确保训练、验证和测试分割在地理上不相交之外，保持所选操作设计域 (ODD) 在这些分割中的分布相似也至关重要。

因为模型只输出一条轨迹，所以需要导航输入命令来消除转弯和变道等驾驶动作的歧义。为了检索这些动作输入，利用每个时间点的矢量化地图标签（即车道折线和多边形），称为地图快照（map snapshot）。由于这些数据会随时间步长而变化，将每个地图快照解析为 trajdata [36] 格式，并估算任何缺失的道路拓扑信息，例如横向车道连通性。由于在使用基于位置和方向的车道匹配 [55] 时存在定位的时间一致性问题，实现一个 trajdata 扩展，它可以按照 [52] 生成不同的基于地图锚路径 (DMAP)。遍历该图以识别自车何时：(1) 转弯（所有具有多个出站纵向边的情况）和 (2) 变道（遍历横向边的情况）。

模型由两个主要组件组成：一个对摄像机图像进行编码的感知模块和一个生成未来轨迹的预测模块。虽然更先进、最先进的架构有可能提升最终性能，但重点在于对具有代表性的数据驱动模型进行系统性规模化规律分析的方法和程序，而不是实现绝对最高的准确率。具体来说，特意排除过去的历史，因为它可以压倒性地预示未来的状态 [42]，以确保模型主要从当前的视觉输入中学习解读环境。这种更简单的设计选择不会改变基本的规模化动力学，使分析更具泛化能力，并能够更有效地进行实验。

感知模块将校正后的多视角摄像头图像作为输入。如果仅提供单个前置摄像头视图，感知模块会直接将提取的特征转发到预测模块进行轨迹生成。当有多个摄像头视图可用时，用交叉注意机制融合多视角信息，类似于 [57]。这种融合策略确保横向视图（左视图和右视图）的融合不带偏见或不依赖于处理顺序。

预测模块基于感知模块生成的特征，结合额外的动作命令和运动学信息，生成最终的轨迹输出。

在对感知、动作和运动特征进行编码之后，使用交叉注意将其融合，以捕捉这些模态之间的依赖关系。

在训练中，采用余弦退火方案来促进平稳高效的学习 [39]。然而，这需要提前知道总训练时长，因为必须预先定义周期长度。与之前要么固定总计算量，要么固定每个数据集大小的 epoch 数量 [24] 的工作不同，本文提出一种线性递减的计算方案。具体而言，对包含 2^k 小时驾驶数据的数据集进行 m × (1 + l − k) 个 epoch 的训练，其中 m = 2 表示 epoch 的底数，l = 13 是最大数据集分割的指数 k。这种方法在有限的计算资源和有效的训练之间取得了平衡。

如图所示，恒定 epoch 方法 (a) 无论数据集大小如何都应用相同数量的 epoch，这导致较大数据集的计算需求大幅增加。相比之下，恒定计算方法 (b) 在不同的数据集大小上保持固定的计算量，使得较大的数据集能够进行足够的迭代次数，但在较小的分块上计算量过大。

冷却阶段的额外要求也使得它比余弦退火 [24] 更复杂。自适应方法 © 会根据数据集大小扩展 epoch 数量，从而在不为较小数据集过度分配资源的情况下提供足够的训练，同时仍确保为较大数据集提供足够的资源。这种逐步规模化的方法可以在不同的数据集大小上实现平滑收敛，并提供一种计算余弦退火使用周期长度的方法 [39]。

规模化规律估计器通常采用 y = f (x; θ) 的形式，其中 y 表示损失、误差或测试集上的某些指标，x 表示训练数据集的大小，θ 表示估计器参数。本研究评估四个候选规模化规律估计器（分别记为 M1、M2、M3 和 M4），每个估计器的复杂度级别均逐级递增，如图所示。