读Vista - 技术栈

摘要：

世界模型能够预见不同动作所产生的后果，这对于实现自动驾驶具有至关重要的意义。然而，现有的驾驶世界模型在面向未见环境的泛化能力、关键细节的预测保真度以及灵活的动作控制等方面仍存在局限性。本文提出了一种具备泛化能力、高保真预测性能及多样化可控性的驾驶世界模型------Vista。通过对现有方法的系统性分析，我们引入了若干关键技术以克服上述问题。为实现对真实世界动态的高分辨率准确预测，我们设计了两种新的损失函数，分别用于增强运动实例和结构信息的学习效果。同时，我们还提出了一种有效的潜在空间替换策略，将历史帧作为先验信息注入模型，以支持连贯且长期的未来推演。在动作可控性方面，我们通过高效的训练策略，将从高层意图（如导航指令、目标点）到低层操作（如轨迹、转角与速度）的多种控制信号统一纳入模型之中。在大规模数据训练后，Vista 的各项能力能够自然地推广至不同的驾驶场景。在多个数据集上的大量实验表明，在超过 70% 的对比中，Vista 显著优于当前最先进的通用视频生成模型，并在 FID 指标上比最佳驾驶世界模型提升 55%，在 FVD 指标上提升 27%。此外，本文首次利用 Vista 自身的能力构建了一个可泛化的奖励函数，用于在无需真实动作标签的情况下评估实际驾驶动作的可靠性。

引言：

近年来，在可扩展学习技术的推动下，自动驾驶领域取得了令人鼓舞的进展 [18, 58, 135]。然而，对于复杂或分布外（out-of-distribution）的驾驶场景，当前最先进的技术仍难以有效应对 [83]。一种有前景的解决方案是"世界模型"（world models）[57, 76]，其能够基于历史观测和备选动作推理出未来可能的状态，从而评估这些动作的可行性。此类模型具备处理不确定性并避免灾难性错误的潜力 [54, 76, 127]，有望提升自动驾驶系统的泛化能力和安全性。

尽管世界模型的一个重要目标是使系统具备在新环境中的泛化能力，但现有的自动驾驶世界模型仍受限于数据规模 [90, 125, 127, 143, 147] 和地理覆盖范围 [54, 61]。如表1和图1所示，现有方法通常受限于较低的帧率和分辨率，导致关键细节的丢失。此外，大多数模型仅支持单一控制模态（如方向盘转角与车速），这不足以表达从高层意图到低层操作等多种形式的动作指令，也无法与主流规划算法 [12, 14, 21, 56, 58, 64] 的输出兼容。同时，如何将动作可控性泛化至未见过的数据集，尚未得到充分研究。上述限制严重制约了现有工作的实用性，因此亟需构建一个能够克服这些问题的世界模型。

为此，我们提出了 Vista，一种具备跨域泛化能力、高保真预测性能以及多模态动作可控性的自动驾驶世界模型。具体而言，我们在一个大规模的全球驾驶视频数据集 [136] 上构建预测模型，以增强其泛化能力。为实现对未来状态的连贯外推，我们将 Vista 建立在三个关键动态先验基础之上（见第 3.1 节）。不同于仅依赖标准扩散损失 [5] 的方法，我们引入了两种显式的损失函数，以增强动态建模能力并保留结构细节（见第 3.1 节），从而提升 Vista 在高分辨率下模拟真实未来场景的能力。

为了实现灵活的动作控制，我们集成了一套多样化的动作格式，既包括高层意图类指令（如导航命令和目标点），也涵盖低层操作类参数（如轨迹、方向盘转角和速度）。这些动作条件通过一个统一的接口进行注入，并采用高效的训练策略进行学习（见第 3.2 节）。因此，如图 2 所示，Vista 能够以 10 Hz 的帧率和 576×1024 像素的分辨率预测逼真的未来场景，并在不同粒度层级上实现多样化的动作控制。我们还展示了 Vista 作为通用奖励函数评估不同动作可靠性的潜力。

本研究的主要贡献包括以下三个方面：

我们提出了 Vista，这是一种具备泛化能力的自动驾驶世界模型，能够在时空高分辨率下预测逼真的未来场景。通过引入两种新的损失函数以捕捉动态特征并保留结构信息，并结合详尽的动态先验知识，显著提升了模型在长时序推演中的预测一致性与质量。
借助高效的训练策略，我们在 Vista 中实现了多种动作形式的统一控制接口，使得模型具备灵活的动作可控性。更重要的是，这种可控性能够以零样本方式推广至不同领域。
我们在多个数据集上进行了系统的实验验证，结果表明 Vista 显著优于当前最具竞争力的通用视频生成模型，并在 nuScenes 数据集上达到了新的最优性能。实证结果显示，Vista 可作为有效的奖励函数用于动作评估。

我们以预训练的稳定视频扩散模型（Stable Video Diffusion, SVD）[5] 作为 Vista 的初始化基础，SVD 是一种用于图像到视频生成的潜在扩散模型。为提升采样灵活性，SVD 采用了连续时间步长公式 [66, 111]。该模型通过扩散过程将数据样本 x x x 转换为噪声 n n n，即 p ( n ∣ x ) ∼ N ( x , σ 2 I ) p(n|x) \sim \mathcal{N}(x, \sigma^2 I) p(n∣x)∼N(x,σ2I)，并从高斯噪声出发逐步去噪，使潜变量趋于 σ 0 = 0 \sigma_0 = 0 σ0=0，从而生成新的样本。

SVD 的训练目标可简化为最小化如下损失函数：
E x , σ , n [ λ σ ∥ D θ ( n ; σ ) − x ∥ 2 ] \mathbb{E}{x,\sigma,n} \left[ \lambda\sigma \| D_\theta(n; \sigma) - x \|^2 \right] Ex,σ,n[λσ∥Dθ(n;σ)−x∥2]

其中， D θ D_\theta Dθ 表示参数化的 UNet 去噪网络， λ σ \lambda_\sigma λσ 为一个重加权函数，后文为简洁起见将其省略。在该框架下，SVD 处理一个含噪的潜变量序列 n = { n 1 , n 2 , . . . , n K } ∈ R K × C × H × W n = \{n_1, n_2, ..., n_K\} \in \mathbb{R}^{K \times C \times H \times W} n={n1,n2,...,nK}∈RK×C×H×W，并生成包含 K = 25 K = 25 K=25 帧的视频。

其生成过程由一张条件图像引导，该图像的潜表示以通道拼接的方式输入模型，作为内容生成的参考依据。尽管 SVD 在视觉质量方面表现优异，但其作为驾驶世界模型仍存在若干关键缺陷。如第 4 节所示，SVD 所生成的第一帧图像与条件图像并不一致，这导致其在自回归推演过程中出现内容不连贯的问题，实用性受到限制。此外，SVD 难以准确建模驾驶场景中复杂的动态变化，导致生成的动作行为缺乏合理性。

SVD 无法通过任何形式的动作进行控制。相比之下，我们的目标是构建一种具备泛化能力的驾驶世界模型，能够以高保真度和真实动态特性预测未来场景。该模型应支持长期序列的连续推演，并可通过多模态动作实现灵活控制，如图 2 所示。

3 学习一种具备泛化能力的驾驶世界模型

如图 3 所示，Vista 的训练过程分为两个阶段。第一阶段，我们构建一个专门的预测模型，其中包含一种潜空间替换策略，用于实现连贯的未来预测；同时引入两种新的损失函数以提升预测的保真度（见第 3.1 节）。为了确保模型在未见场景中的泛化能力，我们采用了目前最大的公开驾驶数据集 [136] 进行训练。

在第二阶段，我们引入多模态动作控制机制，并通过一种高效且协同的训练策略来学习动作可控性（见第 3.2 节）。借助 Vista 的建模能力，我们进一步提出了一种通用的动作评估方法，可用于衡量不同动作的可行性（见第 3.3 节）。

3.1 阶段一：学习高保真未来预测

基本设置

由于世界模型的目标是从当前状态出发预测未来，因此其预测的起始帧应与条件图像保持高度一致。为此，我们在训练过程中将 SVD 改造为专用的预测模型，具体方法是将第一帧作为条件图像输入，并在训练阶段取消噪声增强（noise augmentation）操作 [5, 49]。通过这种预测能力，Vista 可以通过迭代预测短期片段的方式进行长期推演，并使用上一片段的最后一帧重置条件图像。

动态先验注入

然而，仅依赖上述设置进行训练往往会导致相对于历史帧的不合理动态行为，尤其是在长期推演中更为明显。我们认为，这主要是由于对未来运动趋势的先验知识不足所引发的模糊性所致，这也是现有驾驶世界模型的一个常见局限 [54, 68, 125, 127, 136]。

为了估计连贯的未来状态，至少需要三个本质上的先验信息，它们控制着场景中物体未来的运动轨迹：位置、速度和加速度。由于速度和加速度分别是位置的一阶和二阶导数，因此这些先验信息可以通过连续三帧的条件设置完全推导出来。

具体而言，我们构建了一个逐帧掩码 m ∈ { 0 , 1 } K m \in \{0, 1\}^K m∈{0,1}K，长度为 K K K，用于指示各帧是否为条件帧。该掩码按时间顺序依次设定，最多有三个元素被设为 1，表示对应的三帧为条件帧。不同于传统的通道拼接方式，我们通过将相应的含噪潜变量 n i n_i ni 替换为图像编码器生成的clean潜变量 z i z_i zi 来注入新的条件帧。

形式上，输入潜变量构造为：
n ^ = m ⋅ z + ( 1 − m ) ⋅ n \hat{n} = m \cdot z + (1 - m) \cdot n n^=m⋅z+(1−m)⋅n

（见图3左侧）。为了区分clean潜变量，我们从预训练权重中复制一个新的时间步嵌入（timestep embedding），并根据掩码 m m m 分配给对应的条件帧。条件帧和预测帧的时间步嵌入分别进行训练。

相比于通道拼接方式，我们发现通过替换潜变量更有效地吸收不同数量的条件帧，且更具灵活性。此外，在直接应用于 SVD 模型时，我们观察到潜变量替换不会降低其生成质量。因此，在后续训练过程中，原始模型性能不会受到干扰。

由于无需对已观测到的条件帧进行预测，我们在损失函数中将其排除，定义如下扩散损失：

L diffusion = E z , σ , n ^ [ ∑ i = 1 K ( 1 − m i ) ⊙ ∥ D θ ( n ^ i ; σ ) − z i ∥ 2 ] (1) \mathcal{L}{\text{diffusion}} = \mathbb{E}{z, \sigma, \hat{n}} \left[ \sum_{i=1}^{K} (1 - m_i) \odot \| D_\theta(\hat{n}_i; \sigma) - z_i \|^2 \right] \tag{1} Ldiffusion=Ez,σ,n^[i=1∑K(1−mi)⊙∥Dθ(n^i;σ)−zi∥2](1)

其中 D θ D_\theta Dθ 为与 SVD 架构一致的 UNet 去噪网络。通过替换后的潜变量所携带的充分先验信息，Vista 能够完整捕捉周围物体的状态，并通过迭代推演生成更加连贯且合理的长期未来序列。在实际推演过程中，我们利用一个片段的最后一帧作为下一阶段预测的动态先验。

动态增强损失

不同于通常涵盖较小空间范围的一般视频，驾驶视频往往覆盖更大的场景 [136]。在大多数驾驶视频中，远景和静态区域占据了画面的主体，而前景中运动的物体仅占相对较小的比例 [17]。然而，这些前景物体通常具有更高的运动随机性，使得其预测更具挑战。

由于式（1）对所有输出进行统一监督，无法有效区分不同区域之间的细微差异（如图 4(b) 所示），导致模型难以高效学习关键区域中的真实动态特性。鉴于相邻帧之间的差异能够反映出丰富的运动模式 [123, 132]，我们引入了一种额外的监督机制，以促进模型对关键区域动态特征的学习。

具体而言，我们首先设计了一个具有动态感知能力的权重图 w = { w 2 , w 3 , . . . , w K } ∈ R ( K − 1 ) × C × H × W w = \{w_2, w_3, ..., w_K\} \in \mathbb{R}^{(K-1)\times C\times H\times W} w={w2,w3,...,wK}∈R(K−1)×C×H×W，用于突出那些相对于真实情况存在运动不一致的区域：

w i = ∥ ( D θ ( n ^ i ; σ ) − D θ ( n ^ i − 1 ; σ ) ) − ( z i − z i − 1 ) ∥ 2 (2) w_i = \| (D_\theta(\hat{n}i; \sigma) - D\theta(\hat{n}{i-1}; \sigma)) - (z_i - z{i-1}) \|^2 \tag{2} wi=∥(Dθ(n^i;σ)−Dθ(n^i−1;σ))−(zi−zi−1)∥2(2)

为保证数值稳定性，我们在每个视频片段内对权重 w w w 进行归一化处理。如图 4© 所示，该权重放大了运动差异较大的区域，从而突出了动态区域，同时抑制了单调背景的影响。

考虑到未来预测的因果性，即后续帧应遵循前序帧的变化趋势，我们进一步定义一个新的损失函数，通过对每对相邻帧中的后一帧施加惩罚来实现更有效的动态建模：

L dynamics = E z , σ , n ^ [ ∑ i = 2 K sg ( w i ) ⊙ ( 1 − m i ) ⊙ ∥ D θ ( n ^ i ; σ ) − z i ∥ 2 ] (3) \mathcal{L}{\text{dynamics}} = \mathbb{E}{z, \sigma, \hat{n}} \left[ \sum_{i=2}^{K} \text{sg}(w_i) \odot (1 - m_i) \odot \| D_\theta(\hat{n}_i; \sigma) - z_i \|^2 \right] \tag{3} Ldynamics=Ez,σ,n^[i=2∑Ksg(wi)⊙(1−mi)⊙∥Dθ(n^i;σ)−zi∥2](3)

其中 sg ( ⋅ ) \text{sg}(\cdot) sg(⋅) 表示停止梯度操作。通过自适应地重新加权标准扩散损失， L dynamics \mathcal{L}_{\text{dynamics}} Ldynamics 能够显著提升模型在动态区域上的学习效率，例如图 4(d) 中所示的移动车辆和人行道等关键区域。

结构保持损失

在视频生成任务中，感知质量与运动强度之间的权衡已被广泛认知 [3, 32, 73, 144]，本研究的情况也不例外。在面向动态驾驶场景的高分辨率预测中，我们发现预测结果中的结构细节存在严重退化现象，表现为物体过度平滑或断裂，例如车辆轮廓在移动过程中迅速模糊（见图12）。为缓解这一问题，有必要对结构细节给予更多关注。

基于边缘和纹理等结构性特征主要集中在高频成分中的事实，我们通过频域分析识别这些关键信息，具体方法如下：
z i ′ = F ( z i ) = IFFT ( H ⊙ F F T ( z i ) ) z'_i = \mathcal{F}(z_i) = \text{IFFT} (\mathcal{H}\odot FFT(z_i)) zi′=F(zi)=IFFT(H⊙FFT(zi))

其中，FFT 和 IFFT 分别表示二维离散傅里叶变换（2D Discrete Fourier Transform）和二维离散逆傅里叶变换（2D Inverse Discrete Fourier Transform）， H \mathcal{H} H 是一个理想的二维高通滤波器，用于截断低于某一阈值的低频成分。傅里叶变换在 z i z_i zi 的每一个通道上独立进行。

如图 4(e) 所示，通过式（4）可以有效增强与结构信息相关的特征。同样地，也可以从预测潜变量 D θ ( n ^ i ; σ ) D_\theta(\hat{n}_i; \sigma) Dθ(n^i;σ) 中提取相应的高频特征。

基于所提取的高频成分，我们设计了一种新的结构保持损失，定义如下：

L structure = E z , σ , n ^ [ ∑ i = 1 K ( 1 − m i ) ⊙ ∥ F ( D θ ( n ^ i ; σ ) ) − F ( z i ) ∥ 2 ] (5) \mathcal{L}{\text{structure}} = \mathbb{E}{z, \sigma, \hat{n}} \left[ \sum_{i=1}^{K} (1 - m_i) \odot \| \mathcal{F}(D_\theta(\hat{n}_i; \sigma)) - \mathcal{F}(z_i) \|^2 \right] \tag{5} Lstructure=Ez,σ,n^[i=1∑K(1−mi)⊙∥F(Dθ(n^i;σ))−F(zi)∥2](5)

该损失函数通过对预测结果与真实图像在频域中的高频特征差异进行监督，增强了模型对边缘、纹理等关键结构细节的建模能力，从而显著提升了生成图像的清晰度与真实性。

该损失函数通过最小化预测结果与真实图像之间的高频特征差异，使模型能够保留更多的结构信息。我们最终的训练目标是式（1）、式（3）和式（5）的加权和，其中 λ 1 \lambda_1 λ1 和 λ 2 \lambda_2 λ2 为用于平衡优化过程的权衡系数：

L final = L diffusion + λ 1 L dynamics + λ 2 L structure \mathcal{L}{\text{final}} = \mathcal{L}{\text{diffusion}} + \lambda_1 \mathcal{L}{\text{dynamics}} + \lambda_2 \mathcal{L}{\text{structure}} Lfinal=Ldiffusion+λ1Ldynamics+λ2Lstructure

通过联合优化上述三项损失，模型在保持整体生成质量的同时，增强了对动态区域的建模能力，并有效保留了关键的结构细节，从而实现了高保真、长时序且结构连贯的未来驾驶场景预测。

3.2 阶段二：学习多样的动作可控性

多样化动作的统一条件建模

为了最大化使用灵活性，一个理想的驾驶世界模型应能够支持多种具有不同特性的动作格式。例如，用户可以利用该模型评估高层策略 [127]，也可以用于执行低层操作 [102]。然而，现有方法仅支持有限的动作控制形式 [54, 61, 90, 125, 127]，这限制了其灵活性与适用性。

因此，我们在 Vista 中引入了一套多样化且实用的动作控制模式：

转角与速度（Angle and Speed） ：代表最细粒度的动作控制。我们将方向盘转角归一化至区间 [ − 1 , 1 ] [-1, 1] [−1,1]，速度则以公里每小时（km/h）为单位表示。来自不同时刻的动作信号按时间顺序依次拼接。
轨迹（Trajectory）：指自车坐标系下的二维位移序列，广泛用于规划算法的输出 [12, 21, 58, 62, 63]。我们将轨迹以米为单位表示，并将其展平为一维序列。
指令（Command）：代表最高层次的意图信息。不失一般性，我们定义四种常用指令：直行、右转、左转和停车，通过类别索引进行表示。
目标点（Goal Point）：是从短期自车目的地投影到初始帧上的二维坐标，作为人机交互接口之一 [74]。该坐标根据图像尺寸进行归一化处理。

需要注意的是，上述动作在语义和结构上具有异质性，不能直接互换使用。在将所有动作转换为数值序列后，我们统一使用傅里叶嵌入（Fourier embeddings）对其进行编码 [114, 116]（见图3）。这些动作嵌入可通过新增的投影层输入至 UNet 的交叉注意力机制中 [5]，从而扩展输入维度。为保证训练稳定性，新增投影参数初始化为零，使模型能够从预训练状态逐步学习。

我们通过实验发现，相比于加法式嵌入等其他方法 [128, 136]，通过交叉注意力机制注入动作条件信息不仅加速了训练收敛过程，而且显著增强了模型的动作可控性。

高效学习策略

我们在第一阶段训练完成后开始学习动作可控性。由于扩散模型训练中总迭代次数对最终性能至关重要 [5, 22, 32, 99]，我们将动作控制的学习过程分为两个阶段。

在第一阶段，我们在低分辨率（320×576）下训练模型，其训练吞吐量相比原始分辨率（576×1024）提升了 3.5 倍。该阶段占据大部分训练迭代次数。随后，在目标分辨率（576×1024）下进行短时间的微调，使所学得的可控性能够有效适配高分辨率预测。

然而，直接在低分辨率下调整 UNet 参数可能会损害模型的高保真预测能力。反之，若冻结所有 UNet 权重仅训练新增投影层，则会导致生成质量下降（见附录 D），这表明使 UNet 具备适应性是必要的。

为解决这一问题，我们冻结预训练的 UNet 参数，并在每一注意力层中引入参数高效的 LoRA 适配器（Low-Rank Adaptation）[55]。训练完成后，这些低秩矩阵可无缝融合至冻结权重中，而不会增加推理延迟。因此，在低分辨率训练过程中，预训练权重得以保留，避免了高保真预测能力的退化。

考虑到在开放世界场景中无法获取摄像头与车辆的具体参数，因此在推理时同时获得多个等效的动作条件似乎不可行。此外，若试图涵盖所有可能的动作条件组合，将带来极高的训练成本。为此，不同于传统做法在训练过程中激活所有条件，我们通过为每个训练样本仅启用一种动作格式，强制实现不同动作形式之间的独立性。其余未使用动作条件则以零填充作为无条件输入。

如附录 D 所示，这种简单的约束有效防止了训练资源在动作组合上的浪费，并在相同训练步数下最大化每种动作模式的学习效率。

协同训练策略

需要注意的是，OpenDV-YouTube 数据集 [136] 中并未提供上述动作条件信息。相反，nuScenes 数据集 [10] 则具备充足的标注信息，可用于提取所需动作条件。

为了在保持泛化能力的同时实现动作可控性的学习，我们提出了一种协同训练策略，联合使用两个数据集的样本，其中 OpenDV-YouTube 的动作条件统一设为零。动作控制学习阶段采用与式（6）相同的损失函数。

通过从两个互补的数据集中共同学习，Vista 获得了具备跨数据集泛化能力的多样化动作可控性。

3.3 可泛化的奖励函数

世界模型的一个应用是通过引入奖励模块来评估动作的优劣 [40, 42, 43, 76]。Drive-WM [127] 利用外部检测器 [82, 84] 构建奖励函数。然而，这些检测器是在特定数据集 [10] 上开发的，可能在任意场景下的奖励估计中成为性能瓶颈。

相比之下，Vista 已经学习了数百万条人类驾驶轨迹，在不同场景下展现出强大的泛化能力。基于"分布外条件会导致生成结果多样性增加"这一观察 [28, 60]，我们利用 Vista 自身预测的不确定性作为奖励信号的来源。与 Drive-WM 不同的是，我们的奖励函数自然继承了 Vista 的泛化能力，无需依赖任何外部模型。

具体而言，我们通过条件方差来估计不确定性。为了获得可靠的近似值，我们在相同的条件帧 c c c 和动作 a a a 下，对输入噪声进行 M M M 次随机采样并执行去噪操作。随后，我们将奖励函数 R ( c , a ) R(c, a) R(c,a) 定义为平均负条件方差的指数形式：

μ ′ = 1 M ∑ m D θ ( m ) ( n ^ ; c , a ) , (7) \mu' = \frac{1}{M} \sum_{m} D_\theta^{(m)}(\hat{n}; c, a), \tag{7} μ′=M1m∑Dθ(m)(n^;c,a),(7)

R ( c , a ) = exp ⁡ [ avg ( − 1 M − 1 ∑ m ( D θ ( m ) ( n ^ ; c , a ) − μ ′ ) 2 ) ] , (8) R(c, a) = \exp\left[ \text{avg}\left( -\frac{1}{M - 1} \sum_{m} \left(D_\theta^{(m)}(\hat{n}; c, a) - \mu'\right)^2 \right) \right], \tag{8} R(c,a)=exp[avg(−M−11m∑(Dθ(m)(n^;c,a)−μ′)2)],(8)

其中， avg ( ⋅ ) \text{avg}(\cdot) avg(⋅) 表示对视频片段内所有潜变量值取平均。

根据上述定义，不确定性越大的动作将导致更低的奖励值。与常用的评估协议（如 L2 误差）相比，我们的奖励函数无需参考真实动作标签即可实现对动作的评价。

需要注意的是，为简化定义，我们未对估计的奖励值进行归一化处理；但可以通过引入缩放因子对估计结果进行重新标定，从而增强相对对比度，这在实现上是直接可行的。

4 实验

在本节中，我们首先在第 4.1 节展示 Vista 在泛化能力和生成保真度方面的优势。随后在第 4.2 节展示动作控制的效果，并在第 4.3 节验证所提出奖励函数的有效性。最后，我们在第 4.4 节对关键设计进行消融实验。如需更多实现细节与实验结果，请参见附录 C 与附录 D。

4.1 泛化能力与保真度对比

自动评估

由于目前尚无公开可用的驾驶世界模型，我们基于 nuScenes 数据集上的定量结果进行方法比较。我们从验证集中筛选出 5369 个有效样本，用于计算 FID [47] 和 FVD [115] 指标。

在 FID 评估中，我们将预测帧裁剪并缩放至 256×448 分辨率；在 FVD 评估中，我们使用每个视频片段中的全部 25 帧，并按照 LVDM [46] 的做法将其下采样至 224×224。表 2 展示了所有方法的评估结果。在两个指标上，Vista 都以显著优势超越了以往的驾驶世界模型。

人类感知评估

为了进一步分析 Vista 在不同数据集上的泛化能力，我们将其与三种基于网络规模数据训练的通用视频生成模型 [5, 133, 144] 进行比较（见图5）。

已知自动评估指标如 FVD [115] 无法准确反映视觉质量 [3, 6, 32, 130, 136]，更难以刻画真实世界的动态特性。因此，我们采用人类感知评估以获得更为客观和真实的分析。

借鉴近期研究进展 [3, 5, 6, 15, 16, 32, 122, 126]，我们采用了"双选强制选择"协议（Two-Alternative Forced Choice）。具体而言，参与者将看到一组并排显示的视频对，并被要求在两个正交维度------视觉质量 与运动合理性上选择他们认为更优的视频。

为避免潜在偏见，我们对所有视频进行了统一处理：裁剪为固定宽高比、下采样至相同分辨率，并在 Vista 生成的视频长度超过其他模型时进行帧数裁剪。此外，我们仅输入一个条件帧，以与其他模型保持一致。

为确保场景多样性，我们从四个代表性数据集中均匀选取了 60 个场景：OpenDV-YouTube-val [136]、nuScenes [10]、Waymo [112] 和 CODA [79]。这些数据集共同体现了现实驾驶任务的复杂性与多样性，例如 OpenDV-YouTube-val 包含地理围栏区域，Waymo 提供了与训练数据差异较大的域环境，而 CODA 则包含极具挑战性的边界情况。

我们共收集了来自 33 名参与者的 2640 条反馈。如图 7 所示，Vista 在两个维度上均优于所有基线方法，表明其对驾驶动态具有深刻理解。

此外，不同于仅适用于短期预测的其他模型，Vista 可容纳更多动态先验信息，从而生成连贯的长期推演序列，如图 6 所示。

4.2 动作可控性实验结果

定量结果

为了评估动作控制的效果，我们根据定义的四类指令（命令）将 nuScenes 和未见过的 Waymo 数据集的验证集分别划分为四个子集。随后，我们使用不同模态的真实动作条件生成预测结果，并在每个子集上计算 FVD 分数，最后取平均值。

FVD 分数越低，表示生成视频的分布越接近真实视频，说明预测结果更贴近特定行为模式。如图8所示，我们的动作控制方法能够有效模拟与各类指令相对应的运动行为。

此外，我们引入了一种新的评价指标------轨迹差异（Trajectory Difference），用于衡量控制一致性。借鉴 GenAD [136] 的做法，我们训练了一个逆动力学模型（Inverse Dynamics Model, IDM），用于从视频片段中估计对应的轨迹。IDM 示意图见图13。我们将 Vista 的预测结果输入 IDM，并计算其估计轨迹与真实轨迹之间的 L2 差异，时间跨度为2秒。

轨迹差异越小，说明 Vista 展现出的控制一致性越强。我们在 nuScenes 和 Waymo 数据集上进行了实验，每个数据集中选取包含537个样本的子集进行评估。如表3所示，Vista 可以通过多种动作模态实现有效控制，其生成的运动行为与真实轨迹具有更高的匹配度。

定性结果

图9展示了本模型在动作控制方面的多样性与灵活性。即使面对训练过程中未曾见过的场景，Vista 仍能通过多模态动作输入实现有效的控制。

在附录 E 中，我们还通过异常动作输入展示了 Vista 的反事实推理能力（counterfactual reasoning），进一步验证了其对动作条件的精确响应能力。

4.4 消融实验

动态先验的影响

图11展示了使用不同阶数的动态先验所生成的结果。其中，"先验阶数"对应于条件帧的数量。结果显示，在长时序推演任务中，动态先验起到了关键作用，尤其是在保持与历史帧之间的一致性方面尤为重要。

为进一步验证动态先验的有效性，我们在表3中进行了定量评估。具体而言，我们使用第4.2节中介绍的 IDM 模型，对采用不同阶数动态先验所预测视频的轨迹进行推理。轨迹差异的逐步减小表明，引入更多的先验信息能够有效提升预测结果与真实轨迹之间的一致性。

辅助监督的作用

为验证第3.1节中提出的两种损失函数的有效性，我们设计了两个变体模型：分别从同时包含两项损失的基线模型中逐一去除其中一项损失，并进行对比实验。

通过图12的定性比较可以看出，动态增强损失有助于模型更好地学习现实世界的运动模式，而结构保持损失则显著提升了对结构细节的预测能力。

在本文中，我们提出了 Vista，一种具有增强保真度与可控性的可泛化驾驶世界模型。通过系统性研究，我们验证了 Vista 能够以高时空分辨率预测真实且连续的未来场景。此外，Vista 具备多样化的动作可控性，能够泛化至训练过程中未见过的场景中。同时，它还可被形式化为一个奖励函数，用于评估不同动作的优劣。

我们希望 Vista 的提出能够激发更多关于构建可泛化自主系统的研究兴趣。

局限性与未来工作

作为一次初步尝试，Vista 在计算效率、质量保持以及训练规模等方面仍存在一定局限性。未来的工作将探索将我们的方法应用于可扩展架构 [54, 97] 中。更多相关讨论详见附录 A。