26年6月来自Nvidia的论文"NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation"。
随着自动驾驶(AV)技术的进步,在长尾场景下安全评估驾驶策略仍是一个关键瓶颈。在闭环仿真中,驾驶策略模型与环境进行主动交互:其采取的动作会动态更新仿真器状态,并直接影响下一组生成的传感器观测数据。尽管近期基于重建技术的神经仿真器能提供逼真的视觉效果,但它们在本质上受限于初始采集的数据,难以泛化至高度动态或全新的场景。为克服这些局限,推出 OmniDreams------一种基于 Cosmos 扩散模型进行中后期训练(mid- and post-training)的生成式基础世界模型,能够实时自回归生成受动作控制的视频。利用 Cosmos 丰富的视觉先验知识,并结合 2.1 万小时驾驶场景数据的中后期训练,OmniDreams 能够合成传统仿真器难以捕捉的复杂、未见过的现象,例如极端天气和不可预测的动态交通参与者行为。至关重要的是,它能够基于历史帧、当前仿真器状态和即时驾驶动作,自回归地生成逼真的传感器数据。OmniDreams 部署于包含 Alpamayo 1 策略模型和 AlpaSim 调度器的闭环系统中,充当一个响应迅速、具有交互性的环境,为训练和评估下一代自动驾驶策略提供一种可扩展且全面的解决方案。此外,初步结果显示,一种基于 OmniDreams 进行后训练的"世界-动作模型"(WAM)在 Physical AI 自动驾驶 NuRec 数据集上表现优异,其性能超越基于 VLA(视觉-语言-动作)架构的 Alpamayo 1.5 研究型策略模型,且参数总量仅为后者的五分之一。这些结果凸显像 OmniDreams 这样的实时世界模型作为策略架构骨干的巨大潜力。
自动驾驶(AV)研究正步入一个新阶段。具备推理能力的视觉-语言-动作(VLA)模型能够"思考"复杂情境,在生成规划轨迹的同时输出可解释的推理过程(NVIDIA, 2026)。然而,核心挑战依然存在:如何在实际部署前,针对安全攸关的长尾场景对这些策略进行测试。应对这一挑战需要一种既具备交互性又具备可扩展性的仿真器。在闭环评估中,策略在仿真器内主动进行驾驶操作:它输出一个动作,环境随之更新,随后策略接收基于更新后状态渲染出的下一时刻传感器观测数据(如图1所示)。这一点至关重要,因为策略采取的动作会影响场景随时间演变的过程。

训练闭环生成式世界模型对数据流水线提出特定要求:模型必须学会根据结构化场景表征、自车轨迹及环境文本描述,合成具有照片级真实感且在时间上保持一致的传感器观测数据。
1. 数据来源
用两个自动驾驶(AV)数据集进行训练:一是 (Agarwal et al., 2025) 中使用的"真实驾驶场景"(RDS)数据集(包含七个视角的摄像机画面);二是 RDS-HQ-1M,这是对 (Ren et al., 2025) 中 RDS-HQ 数据集进行重新整理与扩展后的版本,包含 114 万个片段。这两个数据集均源自真实世界的驾驶记录,涵盖了欧洲、亚洲和美国 15 个国家在各种工况下的数据。数据集包含由 7 个同步摄像机(前置广角、前置长焦、前左、前右、后左、后右、后置长焦)以每秒 30 帧的速率录制的 1080p 视频片段。RDS 包含 300 万个时长 20 秒的片段,这些片段经过筛选以平衡多种驾驶场景,例如乡村与城市环境、昼夜场景以及低速与高速驾驶。将该数据集用于训练中期阶段,它同时也包含在 Cosmos-Predict 2.5-AV 的预训练数据集中。RDS-HQ-1M 包含 114 万个片段(时长混合为 10 秒或 20 秒),侧重于数据质量及高精度的世界场景标注。将该数据集用于微调和训练后处理阶段。
2. 条件信号提取
OmniDreams 基于三种输入模态来控制生成过程:一种包含渲染车道线和边界框(编码自车未来轨迹)的世界场景地图抽象状态;描述环境条件的文本提示;以及记录近期视觉历史的记忆缓存。因此,准备成对的训练数据需要从原始驾驶日志中提取这些结构化表征。
世界场景地图
世界场景地图(抽象状态)既编码静态场景的高精地图信息,也编码其中的动态参与者。它还编码来自策略模型或人类驾驶员的动作(在真实训练数据中,动作来自测试驾驶员)。高精(HD)地图提供详细且精确的道路标注,包括车道线、道路边界、停止线、立柱、人行横道、路面标线、交通信号灯和交通标志。所有地图标签均取自预先构建的城市级地图,并严格匹配到具体的驾驶路线。此外,对每个视频片段中的动态物体进行3D边框检测与跟踪,从而获得车辆、行人及其他弱势道路使用者的3D标注信息。3D检测与跟踪以10 FPS的频率运行,并插值至30 FPS以匹配视频帧率。
随后,采用 (NVIDIA, 2025) 中介绍的世界场景地图渲染方案。对于每个摄像机视角,用相机的内外参,将上述元素渲染为像素对齐的线条、表面以及投影到2D平面的长方体。道路参与者的长方体经过着色处理,以区分朝向并提供额外的深度线索。图2展示一个世界场景渲染的示例。

文本提示
文本提示允许在不改变底层场景几何结构的情况下,控制环境外观(如天气、光照和时间段)。为了生成用于训练的文本描述,我用视觉-语言模型(VLM,具体为 Qwen2.5-VL-7B (Bai et al., 2023))来描述训练集中的视频片段。该VLM的任务是描述整体景致、天气、驾驶行为及交通状况。针对10秒的时间窗口进行描述生成,并对所有7个摄像机视角的画面分别进行独立描述。针对每个窗口,生成三种不同长度的描述文本:短(约40词)、中(约80词)和长(约200词)。在模型训练过程中,以0.1、0.2和0.7的概率对这些描述文本进行采样,以增强模型对提示词(prompt)长度变化的鲁棒性。
以下是一个中等长度描述文本的示例:"该视频展示在照明良好的城市道路上的夜间行车场景。自车平稳向前行驶,经过明亮的路灯下方,路灯照亮周围环境。路面上有清晰的白色车道标线,包括指示转向的箭头。沿途可见各种交通标志(如黄色圆形标志和蓝色矩形标志),为驾驶员提供指引。道路两侧分布着绿化带、灌木丛和树木,丰富了场景的层次感。道路右侧还可以看到一块广告牌。路面看起来干燥且状况良好。"
3. 数据整理与质量过滤
高质量数据对于训练能够生成时间上一致且无伪影(artifact-free)推演结果的世界模型至关重要。在训练前,采用多阶段过滤流程来剔除有问题的序列。会丢弃包含不可靠传感器数据(例如自车轨迹出现跳变)、不可靠标注(例如自动标注对象的不确定性过高)或预测结果存在分歧的序列。随后,利用视觉-语言模型(VLM)检测摄像机数据中不理想的视觉伪影(如色差),并移除受影响的片段。最后,基于自车轨迹和视觉特征进行数据去重,以对数据集中的重复片段(如高速公路直线行驶场景)进行降采样。
4. 数据集构成
OmniDreams 训练数据集涵盖北美、欧洲和亚洲的 15 个国家(见表 1所示)。RDS 提供用于训练中期阶段的数据(16,600 小时;300 万个片段)。训练后期及微调阶段使用 RDS-HQ-1M 数据集(4,944 小时;1,142,285 个片段),其中 504,488 个为 10 秒片段(约 44%),637,797 个为 20 秒片段(约 56%)。从训练集中预留 5,000 个片段用于评估与测试。这些片段并非按训练集分布比例采样,而是针对各类场景类别进行平衡,涵盖道路参与者(骑行者、行人、摩托车、婴儿车)、大型车辆(卡车、挂车)、天气与光照条件(雨、雪、雾、夜间)以及罕见基础设施(隧道、铁路道口、施工区域、事故现场)。针对其中的 300 个片段,额外获取更长(60 秒)的版本,用于评估长时序的一致性。表 1 总结最终的训练数据集情况。

5. 基于 SIL-Wheel 的数据筛选与检查
构建 OmniDreams 训练混合数据集及相应的留出评估集,需要从多个维度对数百万个候选片段进行考量与筛选,这些维度包括地理位置、天气、时间段、自车行为、交通参与者密度,以及碰撞或弱势道路使用者等罕见但对安全至关重要的场景。利用 NVIDIA SIL 的视频搜索与筛选平台 SIL-Wheel (NVIDIA, 2026) 作为筛选工作的平台。SIL-Wheel 以片段(clip)为粒度对底层语料库(包括 RDS 和 RDS-HQ-1M)建立索引,并提供一系列可组合的搜索原语------涵盖文本描述(caption)搜索、密集语义与视觉检索、自车轨迹查询、分类器评分以及基于感知的过滤器等------这些原语可在单次查询中组合使用。
对于 OmniDreams 而言,SIL-Wheel 发挥着以下三项具体作用:
• 微调数据切片(slice)构建。通过检索符合特定条件的片段来构建后训练(post-training)混合数据集,这些条件针对自然数据分布中覆盖不足的场景,包括罕见天气、施工区域、弱势道路使用者、铰接式运动以及复杂的多智能体交互;同时,在后训练语料库中提高这些数据切片的权重。
• 评估集切片构建。通过相同的搜索接口,将评估集分解为针对不同切片的子集(buckets)。这能够除了报告汇总指标外,还能针对长尾场景和特定场景进行详细分析。
• 数据检查。利用以片段为中心的交互界面(UI),验证 RDS-HQ-1M 上的自动标注质量,筛选经由质量过滤流水线挑出的片段,并在目标数据切片进入训练混合集之前,通过可视化方式确认其内容符合预期。
闭环仿真的一项关键要求是交互性,即模型能够对来自驾驶策略模型或人类输入的动作变化做出即时响应。为实现这一点,OmniDreams 采用自回归方式进行生成。在每个时间步,仿真器根据最新动作更新世界状态,模型则基于这一更新后的状态生成一段短的未来帧序列。
这种设计不同于离线视频生成方法(如 OpenAI, 2024; NVIDIA, 2025; DeepMind, 2025; Wan et al., 2025; Polyak et al., 2024),后者通常利用双向和基于扩散的采样技术生成长视频片段。相比之下,OmniDreams 采用因果扩散(causal diffusion)架构,其中每次预测仅依赖于过去的观测数据和当前的条件输入。系统通过流式 KV 缓存(streaming KV cache)来保持时间一致性。通过复用先前计算的注意键(keys)和值(values),模型无需重新计算整个序列即可维持长期上下文信息,从而支持在较长时间跨度内进行高效且稳定的推演。
提供 OmniDreams 的两个变体:(1) 单视角模型 (OmniDreams-SV):生成单个前向相机视角,每步生成 8 帧(2 帧潜在空间表示/latent frames);(2) 多视角模型 (OmniDreams-MV):联合生成四个同步视角(前向相机、左侧交叉视角相机、右侧交叉视角相机、前向长焦相机),每步生成 16 帧(4 帧潜空间表示)。
1. 网络架构
OmniDreams 基于以下输入进行条件生成(如图 3 所示):

• 首帧 RGB 图像:仿真会话的第一帧图像,被编码为干净的潜 tokens以初始化生成过程。
• 文本提示(Text prompt):对环境属性(如光照、天气和时间)的高层描述。文本通过 Cosmos 文本编码器进行编码,并通过交叉注意层(cross-attention layers)注入模型。
• 抽象世界场景(Abstract world scenario):仿真器状态的结构化表示,与 OmniDreams 生成的视频对齐;该表示包含地图信息(如车道线、交通杆)以及以边框(bounding boxes)形式表示的动态智体(见图 1)。静态地图和动态智体轨迹是预获取的(例如通过车载设备实际记录),而由策略模型或人类驾驶员生成的驾驶动作则用于渲染作为条件输入的"世界场景"视频。
• 内存缓存:一种流式 KV 缓存,用于存储先前生成的 Token 以提供时间上下文信息。
首帧潜向量(latent)和条件信号与带噪的潜 Token 相结合,随后由一个因果 Transformer 主干网络(类似于 Cosmos-Predict 2.5 基础模型 NVIDIA, 2025)进行处理。
OmniDreams 引入一个轻量级控制分支,以便高效地将结构化世界条件信息注入生成模型。该方法不使用独立网络(如 ControlNet)来处理控制输入,而是先利用小型多层感知机(MLP)将结构化模拟器状态编码为紧凑的控制 Token。这些控制 Token 与潜表征对齐,并与视觉 Token 拼接,随后一同输入 Transformer。这种设计在实现对场景结构的有效条件控制的同时,仅引入极少的计算开销;此外,通过保持控制信号与视觉内容的清晰分离,它还有助于稳定自回归生成过程。在实际应用中,轻量级控制分支既能高效整合模拟器状态,又能维持实时生成所需的吞吐量。
2. 一致性多视角生成
OmniDreams 支持多个相机视角的联合生成,同时保持跨视角的一致性和实时性能。每个相机视角都关联一个可学习的嵌入向量(embedding),该向量被添加到 token 表示中以标识视角身份。此外,每个视角都有其专属的条件输入,包括文本提示(text prompt)、首帧 RGB 图像以及对应于其相机配置的结构化世界状态。这使得模型既能表征共享的场景结构,又能表征特定于视角的视觉外观。
一种简单的多视角构建方式是对所有时间步和所有视角的 token 应用全自注意机制,但这会导致相对于视角数量 N 和时间长度 T 呈二次方增长的复杂度 O(N2T2)。对于实时仿真而言,这种复杂度很快就会变得不可行。为了解决这一问题,OmniDreams 将注意机制分解为两个部分:
时间注意(Temporal attention):在每个视角内独立应用。Token 通过因果 KV 缓存(causal KV cache)关注之前的帧,从而捕捉运动动态并保持时间一致性。
跨视角注意(Cross-view attention):在每个时间步跨视角应用。来自不同视角的 token 相互关注,从而实现对几何形状、物体位置和运动等共享场景元素的一致性表征。图 4 总结 OmniDreams-MV 的架构。

这种分解将总体复杂度降低为:O(NT2) + O(N2),与全联合注意相比,效率显著提高。
这种设计实现具有强大跨视角一致性的可扩展多视角生成,同时支持更高的分辨率、更长的时间上下文以及更多的视角。在实际应用中,OmniDreams 支持多达 7 个同步视角的环视仿真。
采用多阶段训练策略,以高效利用多样化的数据源来构建 OmniDreams-SV 和 OmniDreams-MV。首先在 RDS 数据集上对双向视频生成模型 Cosmos-Predict 2.5 进行中间训练(mid-training),以提升其视听(AV)能力;随后增加另一个中间训练阶段,通过引入跨视角注意架构(仅针对 OmniDreams-MV),使模型适应双向多视角生成。最后,通过"扩散强制"(Diffusion Forcing)中间训练阶段,使该模型适应自回归生成。随后,在双向模型和自回归模型的训练后阶段,引入基于"世界场景图"(world-scenario map)的可控生成机制。最后,利用"自强迫DMD"(Self-Forcing DMD)技术的蒸馏阶段,实现少步生成,同时消除自回归过程中的误差累积。训练完成后,在推理阶段(如图5所示),能够生成长达数分钟的视频,且不会显著牺牲画质。

1. 世界场景控制与多视角适配
前言
参考 (NVIDIA, 2025),OmniDreams-MV 采用修正流(rectified-flow,Liu et al., 2022)目标函数来训练模型。形式上,令 x 表示潜视频(latent video),𝜖 ∼ 𝒩 (0, 𝐼 ) 为从标准正态分布采样的噪声,𝑡 ∈ 0,1 为从 Logit-正态分布(logit-normal distribution)抽取的时间步。流匹配目标函数为 L = E_x,𝑡\|\|u_𝜃(x_𝑡, 𝑡) − v_𝑡\|\|^2^,,其中 x_t = (1 - t)x + t 𝜖 且 v_t = 𝜖 - x。模型还可以基于辅助信息 c 进行条件控制,表示为 u_𝜃(x_𝑡, 𝑡; c);这些辅助信息包括文本描述、首帧图像以及控制信号。
多视角适配
OmniDreams-MV 支持生成来自前向广角(front-wide)、侧向左(cross-left)、侧向右(cross-right)和前向长焦(front-telescope)相机传感器的视频。这些视频(特别是侧向左、侧向右和前向长焦视角)具有独特的内参和运动特性,在通用领域视频中很少见。因此,需要一个训练中间阶段,使模型具备多视角视频的相关知识。以 Cosmos-Predict 2.5 为基础,引入可学习的视角嵌入(view embeddings,见图 4所示),并使用前向广角、侧向左、侧向右和前向长焦片段的均匀混合数据对模型进行训练。随后,在网络中加入跨视角注意层(cross-view attention layers)并进行多视角视频训练;在此过程中,跨视角注意层学习视角间的对应关系与一致性。
视角嵌入通过每个 Transformer 模块中的自适应层归一化(adaptive layer normalization)注入到 Token 中,这与时间步嵌入(timestep embedding)的注入方式类似。这些视角嵌入在加入网络时被初始化为零,以确保训练过程中的稳定收敛。跨视角注意层被添加在每个模块的交叉注意层(cross-attention layer)之后、MLP 之前。为了实现稳定的收敛,每个跨视图注意层(cross-view attention layer)的输出投影权重也采用零初始化。采用"文本转视频"与"图像转视频"任务 1:1 混合的方式进行训练,既支持首帧条件控制,又保留模型生成新内容的能力。
世界场景地图控制
在 OmniDreams-SV 和 OmniDreams-MV 中,视频生成模型若要发挥世界模拟模型的作用,均需引入世界场景地图(world-scenario map)。利用预训练权重或经多视图适配的权重,附加一个零初始化的世界场景控制分支,并采用流匹配(flow-matching)目标进行训练。为提高训练效率,先在 93 帧的视频片段上训练至收敛,随后扩展至 189 帧的片段,以学习更长期的时序一致性。该训练过程产出受世界场景控制的双向模型,这些模型非常适合作为教师模型,用于后续的蒸馏过程。
2. 面向自回归生成的训练中期阶段
结合 Diffusion Forcing (Chen et al., 2024) 训练方法应用因果掩码(causal masking),将双向模型转换为适用于自回归生成的因果模型。实验发现,该训练过程若能超越现有"世界场景"(World-Scenario)标注数据的规模进行大规模优化,将获益良多。因此,首先在 RDS 数据集上基于不含世界场景控制的初始模型权重进行训练,随后添加控制分支,并利用 RDS-HQ-1M 数据集继续进行 Diffusion Forcing 训练。
因果掩码
设 x1:𝑇 为包含 T 个潜帧的潜视频。在自回归视频生成中,将完整视频序列的分布分解为 𝑝(x1:𝑇) = Π𝑝(x𝑖 | x<𝑖),并将条件因子 𝑝(x𝑖|x<𝑖) 参数化为一个流匹配(flow matching)模型 u_𝜃(x𝑖_𝑡|x<𝑖),该模型初始化自一个双向视频生成模型。在网络的自注意层中应用因果掩码,以确保 x𝑖 的 token 仅能关注索引 ≤ 𝑖 的帧的 token(如图 5 所示)。该表述可推广至块自回归生成(block-autoregressive generation),即一次生成包含 k 帧的块。在实际实现中,利用 Flex-Attention (Dong et al., 2024) 来应用因果掩码。
扩散强制(Diffusion Forcing)
像在流匹配(flow matching)中那样采样噪声 𝜖,并从对数正态分布中独立抽取一个扩散时间向量 t = t_i(其中 i ∈ 1 : 𝑇)。
3. 蒸馏
为了实现少步生成,同时消除长时间自回归推出中出现的复合错误,应用自强迫(Huang et al., 2025),这是一种训练框架,它将自回归自我推出与基于分布匹配蒸馏(DMD)的整体视频级分布匹配目标相结合(Yin et al., 2024)。
通过自我推出进行自我强制训练
标准教师强制通过在干净、真实的上下文框架上调节每个帧的去噪来训练扩散模型。然而,在推理时,模型必须以自己先前生成的(因此不完美)输出为条件,从而产生分布不匹配,从而导致长期推出时出现复合错误,这种现象称为曝光偏差(Huang,2025)。 Self Forcing(Huang et al., 2025)通过在训练期间用自生成的帧替换真实上下文来缩小这个训练-测试差距:模型执行自回归自推出,通过𝐾步扩散过程(𝐾 = 2,在实现中时间步安排为 1000,450)生成以之前生成的输出为条件的每个帧。为了保持训练的易处理性,梯度反向传播仅限于每次训练迭代的单个随机采样去噪步骤 𝑠 ∼ Uniform(1, . . . , 𝑇),确保所有中间步骤在迭代中都受到监督。梯度还与先前帧的 KV 缓存嵌入分离,将梯度流限制在当前帧。通过滚动 KV 缓存支持长视频生成(Huang et al., 2025):维护最新𝐿帧的固定大小缓存,每当添加新帧时就会驱逐最旧的条目。这将推理复杂度从 𝒪(𝑇𝐿2) 降低到 𝒪(𝑇𝐿),并能够生成任意长的序列。为了在训练期间匹配推理行为,将注意限制在同一滚动窗口上。
基于 DMD 的整体分布匹配
Self Forcing 摒弃利用逐像素重构损失来监督单个去噪帧的做法,转而采用一种整体性的、视频层面的分布匹配目标。具体而言,该方法利用 DMD 公式(Yin et al., 2024),最小化自展开视频片段分布 p_theta 与真实数据分布 p_data 之间的反向 KL 散度。
基于更长上下文"教师模型"的渐进式训练
尽管上述"自强制"(Self-Forcing)蒸馏流程显著降低短序列生成时的"暴露偏差"(exposure bias),但所得模型仍会出现"位移伪影"(shifting artifacts)------即在长序列生成过程中,当滚动式 KV 缓存(rolling KV cache)超出训练时的上下文窗口长度时,会累积产生时间上的不一致性。为缓解这一问题,采用渐进式教师模型策略。首先,训练一个具有更长时序上下文窗口的双向(非因果)视频模型;由于是双向模型,它不会受到滚动缓存伪影的影响。随后,利用这一长上下文双向模型作为教师模型,对之前经由短上下文教师模型蒸馏得到的模型进行持续微调。这种渐进式策略显著减少长序列自回归生成中的位移伪影。
在蒸馏阶段,从包含 58,000 段视频的完整训练语料库中选取一个高质量且具有挑战性的子集。通过专注于该子集的蒸馏,OmniDreams 能够更好地适应复杂城市环境(如密集车流、多变光照及错综复杂的道路几何结构)中对感知能力要求极高的场景,同时在高速公路和乡村场景中保持优异的生成质量。
在闭环模拟器中运行经少步蒸馏的 Cosmos-Predict 2.5 主干网络的推理系统。以下所有操作均无需训练:相对于蒸馏后的检查点(checkpoint),不涉及任何扩散模型权重的修改。该部署系统在包含 16 块 NVIDIA GB300 GPU 的机柜上,可在 151 毫秒内生成分辨率为 704×1280 的 16 帧四视图片段(每台摄像机有效帧率为 105 FPS);在单块 GB300 上,可在 118 毫秒内生成 8 帧单视图片段(有效帧率为 68 FPS)。
1. 模型优化
局部时间注意(Local temporal attention)
在无限制的生成序列(rollout)上应用全局时间注意,在计算量和缓存大小方面均不可行。采用局部窗口注意机制:对于 OmniDreams-SV,窗口大小固定为 6 个潜在帧(对应 24 个 RGB 帧);对于 OmniDreams-MV,窗口大小固定为 8 个潜在帧(对应 32 个 RGB 帧)。窗口大小的选择是在内存占用与运行速度之间的一种权衡。
流式静态形状 KV 缓存(Streaming static-shape KV cache)
该 DiT 模型具有自回归特性:每个片段都会复用先前片段的键(Key)和值(Value)。将缓存预分配为固定大小,并确保其张量形状在整个生成序列中保持静态;同时,将缓存更新操作移至独立线程执行,从而使主线程免受缓存更新延迟的影响。
编译与 CUDA 图(Compile and CUDA Graphs)
由于 KV 缓存是针对固定的局部注意窗口预分配的,DiT 的前向传播在整个生成序列中均基于单一静态形状的张量进行。用 torch.compile(Ansel,2024)对其进行编译,并将其捕获为 CUDA 图(NVIDIA,2024);该图在处理第一个片段时进行惰性捕获(lazily captured),随后在处理后续片段及相同形状的任意生成序列时重复使用。
轻量级编码器与解码器
将 Cosmos 原本使用的 VAE 替换为 LightX2V(LightX2V,2025)中的 LightVAE 或 LightTAE。 LightVAE 将条件视频(初始帧和世界场景条件视频)编码到潜空间,供 OmniDreams-SV 使用,在重建质量和速度之间实现了最佳平衡。OmniDreams-MV 采用像素重排(pixel shuffle)技术替代 LightVAE,以进一步提升模型速度,其延迟可忽略不计。对于 OmniDreams-MV 和 OmniDreams-SV,均使用 LightTAE 将去噪后的潜表示解码回 RGB 图像;LightTAE 因其极低的解码延迟而成为最佳选择。
提升步长不变算子(Hoisting step-invariant operators)
将步长不变的计算从去噪循环中提取出来(即"提升"操作)。由于每个去噪步骤中的自注意力机制都使用相同的 RoPE 频率,改为按数据块(chunk)而非按步骤计算这些频率。同样,负责在潜表示与 DiT 的 Token 布局之间进行转换的 Patchify(分块)和 Unpatchify(还原)算子,仅取决于数据块的形状;因此,在数据块生成的开始和结束时各运行一次这些算子,而不是在每次进入或离开 DiT 时都运行。
2. 多 GPU 推理
DiT 呈现出三个天然的并行维度:摄像机视角维度 V(最大值为摄像机数量)、数据块内的时间维度 T(最大值为每个数据块包含的潜在帧数)以及单帧注意计算中的空间维度 HW。采用分层上下文并行策略,在这三个维度上进行分片(sharding)。在16 GPU、四视角的配置中,参数设置为 V=4、T=4、HW=1。
Rank(计算节点)的分配顺序为 𝑉 → 𝑇 → 𝐻𝑊,,该顺序的选择取决于各维度与注意计算开销的交互方式。自注意计算在 DiT 中占据主导地位且按摄像机独立进行,因此沿 V 维度分片不会切断自注意计算过程:在 4 摄像机设置下,沿 V 维度分配 4 个 Rank 可实现近乎线性的加速,并在使用 4 个 GPU 时使该维度的并行达到饱和。在此之后,剩余的计算任务集中在单个摄像机内部,即涉及 T 或 HW 维度。更倾向于采用 𝑇 维分片(temporal sharding),因为这种方式能保持"跨视图注意模块"(cross-view attention block)在每个时间步的完整性,而 𝐻𝑊 维分片则会同时切分自注意(self-attention)和跨视图注意。在四视图推理中,若每个数据块(chunk)包含 4 个潜在帧(latent frames),则 𝑉 × 𝑇 = 4 × 4 = 16;当 𝐻𝑊=1 时,这已足以占满 16 块 GPU 的资源,因此仅在 GPU 数量超过 16 块时,才会考虑对 𝐻𝑊 维度进行分片。对于上下文并行注意(context-parallel attention)本身,采用内部实现的环形注意(ring-attention)机制(Liu et al., 2024),该机制实现 KV 分片传输与局部注意计算的重叠执行。
3. 端到端性能
两次运行均采用2 步扩散模型,分辨率为 704×1280:其中 OmniDreams-MV 每个数据块包含 16 帧 RGB 图像,局部注意窗口大小为 8 个潜在帧;OmniDreams-SV 每个数据块包含 8 帧图像,窗口大小为 6 个潜在帧。单视图推理在单块 GPU 上即可达到实时性能(定义为 30 FPS),因此仅 OmniDreams-MV 需要多 GPU 支持;在该配置下,16 块 GPU 可实现每个相机 105 FPS 的有效帧率。尽管如此,仍报告单视图模型在多 GPU 环境下的扩展性能表现。
4. FlashDreams:通用推理与服务基础设施
上述技术方案(包括流式固定形状 KV 缓存、局部窗口注意力机制及 CUDA 图捕获)并不局限于特定的模型架构。将其封装为 FlashDreams (NVIDIA, 2026)------一个面向自回归世界模型与视频模型的开源流式推理技术栈,并在其他基于 Wan2.1 的骨干模型(Wan et al., 2025)上进行验证。在基于 Wan2.1 的自回归文生视频模型 Self Forcing (Huang et al., 2025) 上,FlashDreams 在单张 GB200 上的运行速度比官方实现快达 1.95 倍;在基于 Wan2.1-14B 的自回归相机控制世界模型 Lingbot-World (Team et al., 2026) 上,它在 4 张 H100 上的加速比高达 2.49 倍。除了针对分块(chunk)层面的模型优化外,FlashDreams 还提供端到端服务技术栈:一套基于 gRPC 和 WebRTC 的服务器/客户端协议,用于从客户端流式传输控制输入,并将 RGB 帧从服务器回传。
在闭环应用场景中,视频模型被封装为一个有状态的视频模型服务器,通过 gRPC 与仿真器客户端进行通信。图 6 展示了两个连续的交互往返过程。在每次往返中,客户端发送来自策略模型的轨迹、文本提示词以及初始帧(仅在第一个数据块中发送);服务器渲染世界场景条件,利用流式 KV 缓存运行因果 DiT(Diffusion Transformer)的两个去噪步骤,将潜表示(latents)解码为 RGB 图像,并返回 JPEG 编码的帧。随后,客户端更新其世界状态,向驾驶策略查询下一段轨迹,并发送下一个请求。服务器在整个推演过程中保持状态:KV 缓存、捕获的 CUDA 图(CUDA Graphs)以及渲染器状态均在不同数据块之间复用,因此后续的每个请求仅需包含新的轨迹和提示词。

这种架构带来独特的挑战,主要源于视频模型作为渲染器时的三个特性:
• 分布式推理 ------ 为了实现高帧率,视频模型通常采用多进程方式运行(通常每个 GPU 对应一个进程),并利用网络进行进程间通信。这使得视频模型无法采用标准的进程内集成方式(例如作为 Python 依赖库),因为那样会要求仿真层也必须具备分布式能力。
• 自回归特性 ------ 视频模型本质上具有内部状态,这使得无法以任意顺序渲染帧。因此,仿真器必须维护该状态并确保其不失效。
• 基于数据块(Chunk-based)的生成 ------ 出于性能和质量的考量,当前一代视频模型以数据块为单位生成帧,这与底层 VAE 的时间维度压缩机制相对应。这意味着时间被量化为若干区间,而在每个区间开始时,智能体的行为必须是固定且已知的。
1. AlpaSim
NVIDIA AlpaSim 是一款开源、面向研究的自动驾驶(AV)仿真器。为了最大化软件的模块化程度和部署灵活性,AlpaSim 采用微服务架构:其核心运行时(runtime)轻量化,并通过 gRPC 协议利用远程过程调用(RPC)与专用服务(如摄像机帧渲染器、自动驾驶策略模块和物理仿真模块)进行交互。整个系统以一组 Docker 容器的形式部署,从而在 Python 和操作系统环境以及部署方式(包括将不同组件托管在不同数据中心)上提供极大的灵活性。
AlpaSim 的设计充分考虑吞吐量。得益于异步 RPC 请求的使用,启动多个并发的"展开"(rollout)任务时,Python 的事件循环能够跨微服务动态地序列化这些任务,从而自动实现流水线并行。这就要求各个服务必须能够跨多个(可能乱序到达的)展开请求来维护自身状态。
将 OmniDreams 集成到系统中的过程包括:用其替代 NVIDIA NuRec 作为摄像机帧渲染器,定义新的 gRPC 协议以管理渲染状态,并增强 AlpaSim 运行时循环的灵活性,以适应视频模型特有的"分块"(chunk)处理语义。
2. AlpaSim 中的网络集成
跨多节点运行多 GPU 部署的标准方法是基于 Rank(进程编号)的并行:即并行执行同一个 Python 脚本(通常每个 GPU 对应一个进程),并通过环境变量指定当前进程的 Rank、总进程数以及主进程(master process)的地址。脚本中包含控制其行为的条件语句,例如限制每个 Rank 仅处理所有视频 Token 中的一个子集。然而,这种模式无法直接扩展到将视频模型作为更大系统(例如包含仅需执行一次的状态维护逻辑的仿真器)的子组件的场景;因为其他子模块(如自动驾驶策略或交通仿真模块)可能需要采用各自独立的 Rank 并行逻辑来启动。
解决方案是通过 gRPC 在网络层级中增加第二层架构。在视频模型部署的 Rank 0 节点上实现一个 gRPC 服务器,用于接收渲染请求,并通过 NCCL 事件将请求转发给其他 Rank。当某个数据块(chunk)的渲染完成后,生成的帧数据会汇集到 Rank 0,经序列化后回传给 AlpaSim。该方案避免将 OmniDreams 的依赖项、代码及 Rank 调度逻辑与 AlpaSim 的其余组件进行耦合。
未来的工作将通过采用基于 RDMA 的 gRPC 实现,或者将 gRPC 仅作为协调层(用于同步策略模块与 OmniDreams 之间基于 NCCL 的海量视频帧传输)来改进这一方案。这将消除帧编码与解码带来的复杂性及信息损失,并将负载转移至高吞吐量的数据中心网络。
3. 基于会话的状态
OmniDreams 利用先前生成的视频帧的外观来引导后续帧的生成,从而实现对高度动态世界的优质生成。在内部,这对应于 OmniDreams 的 KV 缓存状态。在集成层面,将其抽象为"会话"------每次 rollout(模拟运行)都始于一个新的会话请求,该请求包含模拟的初始帧(作为种子)以及世界的地图表示。
OmniDreams 服务器为该会话生成一个新 ID,并将其与接收到的输入及预分配的 KV 缓存关联起来。服务器将该 ID 返回给 AlpaSim 客户端;客户端随后在所有请求中携带该 ID,以标明每个请求对应于哪一个 rollout 状态。这种模式已在其他有状态服务(如策略模块和交通模拟)中得到广泛应用。
4. 支持分块生成
在单次自回归步骤中生成的每一帧视频,都依赖于世界场景的渲染结果。由于生成过程是分块进行的,模拟器在发起请求时必须提供该数据块中所有帧的自车(ego)及其他参与者(actor)的位姿信息。这具有一定挑战性,因为策略模型和交通模型无法在视频数据块生成的中途更改这些轨迹,否则会导致整个视频数据块失效。尽管下一代世界模型的目标是减小数据块大小并最终实现逐帧生成,但针对当前的"分块"生成机制,考虑两种处理策略,并在 AlpaSim 中实现一种。
"获取后"生成(Post-fetch generation)
一种被称为"获取后生成"的策略是:在不向策略模型提供新视觉输入的情况下,针对视频模型的一个数据块(chunk)完整运行策略模型和交通模型。这要求策略模型具备一种能力:即在"最新可用帧"滞后于"最新可用自车位置"时仍能进行生成。这种特性在生产级自动驾驶(AV)系统中很常见,但在研究型模型中则较少见。一旦该数据块内的策略和交通模型计算完成,系统便利用新生成的轨迹向视频模型发起请求。由于响应的视频帧在逻辑上应早于视频模型请求的时间点,若直接将其插入仿真时间轴,会导致时间轴顺序错乱。鉴于视频数据块的获取操作是在推进仿真计时器之后进行的,此策略称为"获取后(post-fetch)"生成。
"预获取"生成(Pre-fetch generation)
在 AlpaSim 中,为了避免处理视频与自车运动(egomotion)时出现不同步的情况,采取了另一种方案:让策略模型和交通模型在单次运行中生成多步轨迹,而不仅仅是预测单步的下一时刻位姿。这一方案同样适用于那些在轨迹层面(而非位姿层面)运作的物理模块和控制器模块。
在仿真循环中,强制要求这两类服务在与视频模型数据块边界相同的时间戳处进行预测,并赋予其更高的优先级。每当一个新的数据块开始时,将新生成的轨迹追加到自车及其他参与者(actor)的历史轨迹之后,并确定在下一个数据块开始前严格遵循这些轨迹。随后,在对应视频帧的时间点对这些轨迹进行插值,并向视频模型发送请求。将响应中的每一帧转换为一个事件,在逻辑上该帧本应被捕获的精确时间戳处,将其注入到仿真演进状态中。此策略称为"预获取(pre-fetch)",因为调用视频模型的操作发生在推进仿真计时器之前。AlpaSim 采用"预获取"策略的主要考量是为了保持事件的顺序性,因为一旦顺序错乱,可能会导致难以排查的隐蔽错误。
一个相关的问题是,OmniDreams 在生成式预训练期间学习到的表征本身是否有助于驾驶任务:即同一个骨干网络能否被改造为一个具有竞争力的驾驶策略?将单视图检查点(OmniDreams-SV,20亿参数,120°前向广角摄像头)微调为端到端轨迹预测器,并在相同的 AlpaSim 闭环系统中将其与 Alpamayo 1.5(NVIDIA,2026)进行对比。由于该任务不需要基于世界场景地图的条件控制,在进行世界场景地图微调之前,利用 OmniDreams 的因果自回归检查点来初始化策略预测的训练。该策略以 10 Hz 的频率预测未来 6.4 秒的自车轨迹(包含 64 个路点)。
1. 架构与训练
OmniDreams 的因果 DiT 骨干网络保持结构不变,但在每一帧中增加两项内容。首先,来自 DINOv2 (dinov2_vitb14)(Oquab,2023)初始化编码器的 Patch 特征以及来自 30° 前向长焦摄像头的特征,经由可学习的线性投影处理后,作为附加条件与带噪视频潜 Token 相加。其次,一个历史 Token(通过小型 MLP 编码过去 1.6 秒的自车运动信息)被添加到每一帧的 Token 集合中,并沿时间轴与视频 Patch 交错排列。注意力掩码保留原有的视频间因果关系(即视频 Token 仅关注当前及过去的视频 Token,这与生成式预训练期间完全一致),并将其扩展至历史 Token,采用单向耦合方式:每个历史 Token 关注所有当前及过去的视频 Token,但不关注任何其他历史 Token。
设 h 表示历史 Token 位置处的 DiT 输出。该 h 被输入到一个 12 层的 U-Net 形状 MLP 中,用于参数化未来轨迹潜变量 𝜏上的流匹配速度场 u_𝜑(𝜏_𝑠, 𝑠; h),其中采用与视频骨干网络相同的流匹配公式。在训练时采用联合去噪目标,将视频和轨迹潜变量(latents)上的流匹配(flow matching)损失相加,并使用独立采样的流匹配时间(视频为逐帧时间 t,轨迹为逐序列时间 s)。这种做法迫使历史 Token 必须从当前可用的视觉上下文保真度中提取信息,而不是仅仅适应单一的噪声水平。在推理阶段,放弃交错噪声调度(interleaved-noise schedule),改为执行单次因果前向传播:输入 4 帧低噪声视频潜在变量和一个历史 Token,并通过 4 步流匹配来采样轨迹。由于仅关注预测未来轨迹,无需进行视频去噪,因此 DiT 主干网络(backbone)仅运行一次,而 4 步去噪过程仅在轻量级轨迹 MLP 中进行。
2. 与 Alpamayo 1.5 的闭环对比
在原始 Alpamayo 1.5 协议下评估同一个 OmniDreams WAM 检查点(checkpoint):在包含 574 个场景的 Physical AI 自动驾驶 NuRec 数据集(NVIDIA, 2025)上,采用 10 Hz 的重规划频率和 20 秒的轨迹推演(rollout)。此处进行子集筛选仅是为了排除 OmniDreams WAM 训练时使用过的场景。与 Alpamayo 1.5 相比,经 OmniDreams 微调的策略将碰撞率从 6.9% 降低至 4.2%(其中前方碰撞从 1.0% 降至 0.9%,侧向碰撞从 0.6% 降至 0.4%,后方碰撞从 5.3% 降至 3.0%),且其参数量仅为后者的约五分之一(约 20 亿对约 100 亿)。这意味着,用于合成下一帧相机观测的主干网络,其编码的场景状态保真度足以超越规模大得多的专用策略模型。
基于世界模型的策略此前已在机器人操作(Ye et al., 2026)等领域得到探索;本文展示这一范式同样有望迁移至自动驾驶领域------在该场景中,未来具有高度多模态特征,安全标准极高,且策略必须能够泛化应对各种长尾分布的现实交通状况。特别是在自动驾驶领域,这意味着 OmniDreams 骨干网络无需仅仅充当封装在外部驾驶系统(driving stack)之外的被动式传感器模拟器;同一模型完全可以作为驾驶策略本身的共享骨干网络。针对自动驾驶车辆(AV)开展"世界模型与驾驶策略"的联合训练------即让单一模型同时学习在真实交通场景中进行渲染与驾驶------是未来研究的一个极具前景的方向。
OmniDreams 不仅可以作为独立的生成式传感器模拟器使用,还能用于改进现有的基于重建的模拟系统。神经重建方法(包括 NeRF 和 3D 高斯溅射/3D Gaussian Splatting)提供一种直接利用真实世界传感器数据构建模拟环境的有效途径,已成为自动驾驶模拟的实用基础。然而,这些系统在处理新视角外推(novel-view extrapolation)时往往表现脆弱。当所需的相机位姿大幅偏离原始采集轨迹时,重建渲染结果可能会出现细节模糊、内容缺失、重影、几何体悬浮以及其他与视角相关的伪影。这些伪影会降低闭环仿真(closed-loop rollouts)的真实感,并可能给下游策略带来不良的分布偏移。
为了解决这一局限性,对 OmniDreams 进行后训练(post-training),利用其经蒸馏的自回归检查点(checkpoint)来校正重建伪影。构建成对的训练数据,包含来自基于重建的模拟器的退化渲染图以及相应的清晰目标图像。受先前研究(Wu et al., 2025; de Lutio et al., 2026; Zhang et al., 2026)的启发,在后训练阶段不从随机高斯噪声开始去噪,而是直接从退化渲染图本身出发进行去噪,遵循了这些先前研究中采用的公式设定。在此设定下,OmniDreams 学习一种映射流,将受伪影影响的重建输出映射到清晰图像流形(manifold)上,同时保持场景布局、相机视角以及与驾驶相关的结构特征。
在推理阶段,该后训练模型可作为自回归校正模块,应用于预重建的场景之上。针对重建系统生成的渲染帧,OmniDreams 通过去除新视角伪影来优化图像,并利用因果历史信息(causal history)和 KV 缓存(KV-cache)条件机制来维持时间一致性。这使得基于重建的模拟器既能保持其在特定场景几何基础(geometric grounding)方面的优势,又能受益于生成式世界模型所学习到的视觉先验知识。在图 7 中展示定性结果。
