「港科技」联手「地平线」打造GPT风格的自动驾驶世界模型：DrivingWorld

摘要

最近在自回归（AR）生成模型方面的成功，例如自然语言处理中的GPT系列，激发了在视觉任务中复制这一成功的努力。一些研究尝试将这种方法扩展到自动驾驶中，通过构建基于视频的世界模型来生成逼真的未来视频序列和预测自我状态。然而，先前的工作往往产生不尽人意的结果，因为经典的GPT框架旨在处理一维上下文信息（如文本），缺乏生成视频所必需的空间和时间动态的建模能力。在本文中，本文提出了DrivingWorld，这是一个GPT风格的自动驾驶世界模型，具有几种空间-时间融合机制。这种设计使得能够有效地建模空间和时间动态，从而实现高保真度、长时间的视频生成。具体来说，本文提出了一种下一状态预测策略来建模连续帧之间的时间连贯性，并应用一种下一个token预测策略来捕获每一帧内的空间信息。为了进一步增强泛化能力，本文提出了一种新颖的masking策略和token预测的重加权策略，以缓解长期漂移问题并实现精确控制。本文的工作展示了生成超过40秒时长的高保真度和一致的视频片段的能力，这比现有的最先进的驾驶世界模型长了两倍以上。实验表明，与先前的工作相比，本文的方法在视觉质量和可控的未来视频生成的准确性方面都取得了显著的优越性。

©️【深蓝AI】编译

论⽂题目：DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT

论文作者：Xiaotao Hu，Wei Yin，Mingkai Jia，Junyuan Deng，Xiaoyang Guo，Qian Zhang，Xiaoxiao Long，Ping Tan

论文地址：https://arxiv.org/pdf/2412.19505

官方网站：https://github.com/YvanYin/DrivingWorld

▲图1｜本文方法的可控生成结果©️【深蓝AI】编译

介绍

近年来，自回归（AR）学习方案在自然语言处理中取得显著成功，如GPT系列模型，这促使研究人员尝试将其应用于视觉任务，特别是自动驾驶的基于视觉的世界模型构建。自动驾驶系统中的未来事件预测至关重要，但现有模型依赖大量标注数据，容易在分布外和长尾场景中失效，尤其对于罕见极端情况，如事故，获取足够训练数据非常困难。

一种有前景的解决方案是自回归世界模型，它通过无监督学习从未标注的大规模视频中学习综合信息，增强驾驶决策的稳健性，并减少灾难性错误，提高安全性和泛化能力。先前工作GAIA-1首次将GPT框架从语言扩展到视频，但由于其主要设计用于一维上下文信息，缺乏有效建模视频所需的空间和时间动态的能力，导致生成视频质量较低且存在伪影。

为此，本文提出了DrivingWorld------一种基于GPT风格视频生成框架的驾驶世界模型，旨在通过以下创新增强时间连贯性：

时间感知标记化，将视频帧转换为时间连贯的标记；
混合标记预测，引入下一状态预测策略以捕捉连续状态间的时间连贯性及空间信息；
长时间可控策略，实施随机标记丢弃和平衡注意力策略，提高鲁棒性和控制精度。

实验表明，该模型实现了良好的泛化性能，能生成超过40秒的高质量视频序列，并提供准确的下一步轨迹预测。

本文方法

Tokenizer

词元化将连续数据转换为离散的词元，使其能够与语言模型集成并增强多模态序列建模。在本文的方法中，词元化器将多模态状态映射到统一的离散空间中，这使得能够进行准确且可控的多模态生成。为了生成图像的时间一致性嵌入，本文提出了一种时间感知的向量量化词元化器。本文提出的车辆姿态词元化器将姿态轨迹离散化并将其整合到本文的DrivingWorld中。

单图像向量量化（VQ）词元化器，旨在将图像特征映射转换为离散词元。该量化器利用一个学习得到的离散码本，包含个向量，将每个特征映射到中最近代码的索引。这种方法使得连续图像数据能够转换为离散词元。时间感知向量量化词元化器。单图像VQ词元化器常常难以产生时间上一致的嵌入，导致视频预测不连续，阻碍世界模型的训练。图像序列被编码为，其中每个特征都是独立处理的，缺乏时间信息。

为解决此问题，本文提出一种时间感知向量量化词元化器，旨在确保随时间一致的嵌入。具体来说，为了捕捉时间依赖性，本文在VQGAN量化之前和之后插入一个自注意力层，其中注意力沿时间维度操作。这使本文的模型能够捕捉帧之间的长期时间关系，提高生成序列的连贯性和一致性。本文的模型基于LlamaGen的开源VQGAN实现。本文简单而有效的时间自注意力的集成可以无缝地融入原始框架，随后进行微调，以开发一个健壮且可泛化的时间感知VQ词元化器。在执行量化之前被送入时间自注意力：

其中表示码本中的第个向量。

▲图2｜ Driving World的pipeline©️【深蓝AI】编译

车辆姿态词元化器。为了准确表示车辆的自我状态，包括其方向和位置，本文采用以自我车辆为中心的坐标系统，如图2所示。本文不是采用全局姿态，而是采用相邻时间步之间的相对姿态。这是因为全局姿态由于长期序列中绝对姿态值的增加而带来显著挑战。这种增长使得归一化变得困难，并降低了模型的鲁棒性。随着序列的增长，管理这些大姿态值变得越来越困难，阻碍了有效的长期视频生成。

对于车辆方向序列和位置序列，本文提出计算每个时间步相对于前一个时间步的相对值。在第一个时间步，相对位置和方向初始化为零。以自我为中心的状态序列由和给出。为了对它们进行词元化，本文离散化自我周围的空间。具体来说，本文将方向离散化为类别，并将和轴分别离散化为和类别。因此，时间的相对姿态词元化如下：

最后，本文处理过去的T个真实世界状态并将它们词元化为每个时间步的车辆状态的离散序列，其中每个词元是车辆在每个时间步的状态的离散表示。

世界模型

▲图3｜ vanilla GPT和时间感知GPT（本文的方法）的推理示例。©️【深蓝AI】编译

世界模型的目标是理解过去的状态输入，模仿现实世界的动态，并预测未来的状态。在本文的上下文中，它预测即将到来的驾驶场景并规划一个可行的未来轨迹。为此，世界模型将历史状态词元连接成一个长序列，其中二维图像词元以之字形顺序展开成一维形式。因此，目标是基于过去观察序列预测下一个状态捕获时间和多模态依赖性。请注意，所有来自不同模态的离散词元在被送入世界模型之前，都通过它们各自的可学习嵌入层映射到共享的潜在空间中，即。所有后续过程都在这个潜在空间内进行。

初步：下一个词元预测。一种直接的方法是使用GPT-2结构进行一维序列下一个词元预测。图3(a)展示了一个简化的例子。因果注意力被应用于下一个词元预测，中的第个词元被建模为：

然而，这种一维设计对于本文的特定场景是不足够的。预测长期视频需要生成数万个词元，这非常耗时。此外，它忽略了图像中固有的空间结构化图像特征。

因此，本文提出了一个下一状态预测流程，它由两个模块组成：一个模块整合时间和多模态信息以生成下一状态特征（即时间-多模态融合模块），另一个是一个自回归模块（即内部状态自回归模块），用于生成高质量的内部状态词元。

时间-多模态融合模块。本文的时间-多模态模块由一个独立的时间层和一个多模态层组成。这种设计将时间和多模态信息的处理解耦，从而提高训练和推理速度，同时也减少了GPU内存消耗。如图3(b)所示，本文建议在时间变换层中使用因果注意力掩码，其中每个词元只关注自身以及所有先前帧中相同序列位置上的词元，充分利用时间信息。

在多模态信息融合层中，本文采用同一帧中的双向掩码，旨在完全整合内部状态多模态信息，并促进不同模态之间的交互。每个词元关注来自同一时间步的其他词元，

时间和多模态层交替堆叠以形成此模块。

内部状态自回归模块。在时间-多模态模块之后，本文获得了未来帧状态预测的特征。一种简单的方法是同时预测下一个状态词元。最近，多幅图像生成研究提出，自回归的下一个词元预测流程能够生成更好的图像，甚至优于扩散方法。受此启发，本文提出一个内部状态自回归模块来为下一个时间步生成姿态和图像（见图3(b)）。具体来说，为了预测本文将时间-多模态输出特征与序列词元结合。然后它们被输入到内部状态自回归变换器层 Fc(⋅)。这些层中采用了因果掩码，因此每个词元只能关注自身和前缀内部状态词元。自回归过程如公式6所示。由于本文的流程结合了下一个状态预测和下一个内部状态词元预测，本文在训练中实施了两种教师强制策略，即一种用于帧级别，另一种用于内部状态级别。

本文使用交叉熵损失进行训练，如下所示：

其中是真实词元，是预测词元。

解码器

使用世界模型预测的下一个状态词元，然后本文可以利用解码器生成相应的相对方向，相对位置，以及该状态下重建的图像。这个过程使能够将预测的潜在表示映射回物理输出，包括空间和视觉数据。车辆姿态解码器。对于预测的相对方向词元和相对位置词元，可以通过方程2的逆函数获得相应的值，如下所示：

时间感知解码器。对于预测的图像词元，在时间感知向量量化词元化器中从码本中检索相应的特征。注意，在量化层之后插入一个时间自注意力以增强时间一致性。

长期可控生成

无漂移自回归的标记丢弃。在训练过程中，世界模型使用过去的地面真实标记作为条件来预测下一个标记。然而，在推理时，模型必须依赖于之前生成的标记进行条件化，这些标记可能包含不完美之处。仅用完美的地面真实图像进行训练可能会导致推理过程中的内容漂移问题，从而引起生成输出的快速退化和最终失败。为了解决这个问题，本文提出了一种随机掩码策略（RMS），其中一些来自地面真实标记的标记被随机丢弃。每个标记有50%的概率被替换为该帧中的另一个随机标记，并且以30%的概率应用于整个条件图像序列。如图4所示，这种丢弃策略显著减轻了推理过程中的漂移问题。

▲图4｜本文所提出的掩码策略的效果。©️【深蓝AI】编译

精确控制的平衡注意力机制。世界模型利用广泛的注意力操作来交换和融合标记之间的信息。然而，每个前视图图像被离散化为512个标记，而仅有2个标记代表姿态（方向和位置）。这种不平衡可能导致模型忽略姿态信号，进而导致不满意的可控生成效果。为此，本文提出了一种平衡注意力操作，通过在注意力机制中优先考虑自我状态标记来实现更精确的控制，而不是平等对待所有标记。具体来说，在注意力图（在softmax层之前）中手动增加了方向和位置标记的权重，分别为这些标记添加了0.4和0.2的恒定权重。此外，本文还引入了QK-norm和2D旋转位置编码来进一步稳定训练并提高性能。

实验

实现细节

▲表1｜真实世界驾驶世界模型。©️【深蓝AI】编译

标记器和解码器。视频标记器包含7000万个参数。采用的码本大小设置为16,384。该模型在32个NVIDIA 4090 GPU上使用来自OpenImages、COCO、YouTube-VOS和NuPlan数据集的图像，以总共128的批量大小训练了1,000K步。本文使用三种损失函数的组合来训练时间感知VQVAE：Charbonnier损失、来自LPIPS的感知损失和码本损失（更多详情见补充材料）。

世界模型。世界模型包含10亿个参数，并在视频序列上进行训练。该模型基于15帧条件化以预测下一帧。它是在超过3456小时的人类驾驶数据上训练的，如表1所示。其中120小时的数据来自公开的NuPlan数据集，而3336小时是私有数据（更多详情见补充材料）。训练持续了12天，在64个NVIDIA A100 GPU上分布执行了450K次迭代，每次迭代的批量大小为64。

评估数据集和指标。本文使用来自NuPlan测试数据集的200个视频片段作为测试集。此外，根据Vista的方法，还包括来自NuScenes测试集的150个视频片段作为评估的一部分。视频生成的质量通过Frechet视频距离（FVD）进行评估，同时本文也报告了Frechet Inception距离（FID）以评价图像生成质量。

比较与评估

长时间视频生成。本文方法的一个关键优势是其能够生成长时间的视频。图5可视化了由本文的模型生成的一个长时间视频。通过仅基于15帧条件化，本文的模型可以以10 Hz的频率生成多达640个未来的帧，从而产生具有强烈时间一致性的64秒视频。这些结果表明，本文的模型在整个生成的帧中保持了高视频保真度并保留了3D结构完整性。相比之下，先前的方法在长时间视频中往往面临漂移或退化的问题。生成扩展视频序列的能力突显了本文的模型在需要长期预测的任务中的潜力，例如自动驾驶或复杂动态环境中的视频合成。更多长时间生成的视频见补充材料。

生成视频的定量比较。在表2中提供了本文方法与几种其他方法在NuScenes数据集上的定量比较。由于大多数方法并未公开，使用它们各自论文中报告的结果进行比较。尽管NuScenes对本文模型来说是零样本，但仍然实现了与最先进方法（Vista）相当的性能。大多数先前的方法基于经过良好训练的稳定视频扩散（SVD），该方法是在数十亿图像上训练的，而本文设计的GPT风格框架是从头开始训练的。此外，本文的方法能够生成比它们显著更长的视频。

生成视频的定性比较。本文在NuScenes数据集上提供了与SVD的定性比较。如图6所示，本文的生成视频展示了卓越的时间一致性，特别是在保持诸如街道车道和车辆等细节方面。在图像标记器的定量比较中，本文进一步评估了时间感知图像标记器与其他工作提出的标记器。因为图像标记器是VQVAE的一部分，本文评估了这些VQVAE的编码-解码性能。实验在NuPlan数据集上进行，并总结在表3中。VAR和 VQGAN的VQVAE模型在PSNR和LPIPS分数方面表现出合理的图像质量，但在FID和FVD指标上表现不佳。相比之下，Llama-Gen的VQVAE在FID和FVD分数上显示出显著改进。经过在驾驶场景上的微调后，本文在FVD性能上观察到进一步提升。最终，本文的时间感知VQVAE超越了所有其他模型，在四个指标上都取得了最佳分数。

消融研究

设置。由于延长的训练时间和计算成本，本文在较小的数据集上进行了消融研究。从NuPlan数据集中提取了12小时的视频数据用于训练，并从NuPlan测试集中选择了20个视频创建测试数据。所有消融实验都在32个NVIDIA A100 GPU上进行，总批量大小为32。每个模型从头开始训练50K次迭代，大约需要32个GPU小时。

带有和不带随机掩码策略的模型结构。为了评估随机掩码策略对模型鲁棒性的影响，本文实验了带和不带随机标记掩码的模型训练。这个掩码过程模拟了推理期间可能出现的预测错误，增强了模型处理噪声的能力。如表4所示，未经掩码训练的模型在NuPlan数据集上的性能显著下降，尤其是在长期视频中，推理错误更为普遍，这可以从FVD40分数看出。因此，禁用掩码导致FVD大幅增加，在不同场景下上升了4%至32%，表明泛化能力差和对噪声输入的鲁棒性降低。

与Vanilla GPT结构的讨论，将本文的DrivingWorld结构与Vanilla GPT架构（特别是GPT-2）的内存使用情况进行了比较，后者在推理过程中跨所有帧顺序处理标记。GPT-2的串行标记预测减慢了性能，显著增加了计算负担和内存使用。如表6所示，GPT-2的内存消耗随着序列长度呈二次增长，使其在长序列上效率低下。相比之下，本文的方法分离了时间和多模态依赖关系，允许更高效的表示和计算。随着序列长度的增加，本文的模型保持稳定的计算成本和内存使用，避免了GPT-2中出现的急剧扩展。此外，本文的方法不仅提高了效率，还改善了结果质量。如表5所示，本文的模型在NuPlan上的FVD得分优于GPT-2。

结论与未来工作

总结来说，DrivingWorld通过利用GPT风格的框架，解决了先前自动驾驶视频生成模型的局限性，能够产生更长、更高保真度的视频预测，并提高了泛化能力。与传统方法不同，这些传统方法在长序列中难以保持连贯性或严重依赖标注数据，DrivingWorld能够生成真实、结构化的视频序列，同时实现精确的动作控制。与经典的GPT结构相比，本文提出的时空GPT结构采用了下一状态预测策略来建模连续帧之间的时间连贯性，然后应用下一个词元预测策略来捕获每一帧内的空间信息。展望未来，本文计划整合更多的多模态信息并集成多个视角输入。通过融合来自不同模态和视角的数据，本文旨在提高动作控制和视频生成的准确性，增强模型理解复杂驾驶环境的能力，进一步提升自动驾驶系统的整体性能和可靠性。

「港科技」联手「地平线」打造GPT风格的自动驾驶世界模型：DrivingWorld

介绍

相关工作

世界模型

VQVAE

视频生成

本文方法

Tokenizer

世界模型

解码器

长期可控生成

实验

实现细节

比较与评估

消融研究

结论与未来工作