【视频世界模型】InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

InSpatio-WorldFM：开源实时生成式帧模型

原文链接：https://inspatio.github.io/worldfm/

文章目录

InSpatio-WorldFM：开源实时生成式帧模型
摘要
[1 引言](#1 引言)
[2 InSpatio-WorldFM](#2 InSpatio-WorldFM)
- [2.1 整体架构](#2.1 整体架构)
- [2.2 公式推导](#2.2 公式推导)
- [2.3 预训练](#2.3 预训练)
- [2.4 中期训练](#2.4 中期训练)
- - [2.4.1 基础帧模型](#2.4.1 基础帧模型)
  - [2.4.2 基于合成数据的微调](#2.4.2 基于合成数据的微调)
- [2.5 后训练](#2.5 后训练)
[3 实验评估](#3 实验评估)
[4 讨论与结论](#4 讨论与结论)
- [4.1 局限性](#4.1 局限性)
- [4.2 未来工作](#4.2 未来工作)
思考

摘要

本文提出 InSpatio-WorldFM ，一款面向空间智能的开源实时帧模型。现有基于视频的世界模型依赖序列帧生成，窗口级处理会带来较大延迟；与之不同，InSpatio-WorldFM 采用基于帧的范式，每一帧均可独立生成，能够实现低延迟的实时空间推理。该模型通过显式三维锚点与隐式空间记忆约束多视角空间一致性，在视角发生变化时，既能保证全局场景几何结构稳定，又能保留精细视觉细节。本文进一步设计了一套渐进式三阶段训练流程：先将预训练图像扩散模型改造为可操控帧模型，再通过少步蒸馏将其优化为实时生成器。实验结果表明，InSpatio-WorldFM 具备优异的多视角一致性，同时可在消费级显卡上支持交互式场景漫游，为实时场景仿真任务提供了传统视频类世界模型之外的高效方案。

项目主页：https://inspatio.github.io/worldfm/

代码仓库：https://github.com/inspatio/worldfm

图1：不同风格的生成场景示例，涵盖写实、科幻、游戏及艺术化场景。配套摇杆界面可实现近乎零延迟的实时交互式漫游。

1 引言

生成模型领域的一系列进展 $27,18,19,30,5,24$ 大幅提升了视觉画面的真实感与时间连续性。这类模型依托大规模视频数据集 $22,51,41$ 学习丰富的运动规律与相机运动特征，也推动学界越来越多地尝试利用生成模型模拟具备真实感的持久化场景。在此背景下，研究重心正逐步从传统文生视频任务 $4,28,6,40,7,33$ ，转向构建可表征结构化场景并支持交互的世界模型 $50,39,9,44,43,14$ ，典型代表包括 HY-World $31$ 、LingBot-World $32$ ，以及融入预设规则与约束的相关模型（如 Genie 3 $10$ ）。

尽管相关技术已取得长足进步，但目前主流世界模型 $16,38,26,11,48,29$ 仍以视频生成架构为基础。视频模型能够复用从海量视频数据中学到的运动、外观与相机运动先验知识，但该技术路线也存在若干本质缺陷。

首先是交互延迟问题难以根除。绝大多数基于视频的世界模型会在时间窗口内按顺序生成帧，结合双向注意力与全窗口解码机制，每一轮生成都需要处理窗口内所有帧，带来极大的推理开销。即便采用蒸馏加速手段，这种窗口级依赖也从根本上限制了模型实现真正实时交互的能力。

其次是空间误差会随生成过程不断累积。视频模型的优化目标以短期时间连续性为主，而非长期空间一致性。随着生成持续进行，微小的空间偏差会不断叠加，最终造成场景几何结构漂移、多视角画面不一致。由于缺少约束全局空间的专用机制，这类累积误差很难被修正。

近期，World Labs 提出了实时帧模型（RTFM） $37$ ，探索基于帧的世界建模方案，但该工作公开的技术细节有限，且未开源代码。为进一步挖掘该技术方向的潜力、解决视频类世界模型的固有问题，本文提出 InSpatio-WorldFM，一款面向实时空间推理与画面生成的帧式世界模型。视频类方法将场景建模为相互依赖的帧序列，而本模型直接把空间结构融入单帧生成过程：通过为每一帧补充显式空间信息作为条件，在保证场景几何一致性的同时，实现低延迟帧合成，支撑实时交互。本文设计的核心模块如下：

多视角一致训练数据构建：制作具备明确多视角一致性的训练数据，让模型学习不同视角间稳定的空间关联关系。
渐进式三阶段训练流程：将基础图像生成器（第一阶段）逐步改造为搭载空间记忆机制的可操控帧模型（第二阶段），最终优化为少步实时生成器（第三阶段）。
基于少步蒸馏实现实时生成：采用2步去噪方案完成推理加速 $42$ 。

实验证明，InSpatio-WorldFM 生成的帧具备强多视角一致性，且交互过程无明显延迟。以上模块共同构建起一套面向实时空间智能的高效基础方案，可作为传统视频类世界模型的实用替代方案。

2 InSpatio-WorldFM

图2：整体架构。离线阶段中，多视角一致性模型生成合理的观测画面，以此提供三维锚点与参考外观；在线阶段中，帧模型执行快速实时推理，并在关键帧处更新场景内容。

2.1 整体架构

如图2所示，InSpatio-WorldFM 的框架分为离线阶段 与在线阶段。在离线阶段，将单张图像输入多视角一致性模型（如文献 $49,14$ ），生成具备多视角一致性的观测图像，以此作为外观参考；同时可借助三维重建模型（如文献 $34,36,35$ ）获取三维锚点。另一种更简便的方式是生成全景图像，该方式同样能够提供360°场景约束，目前已有多款开源方法可实现该功能 $31,13,46$ 。在在线阶段，本文采用轻量化帧模型完成实时推理与图像生成。

2.2 公式推导

本文将 InSpatio-WorldFM 定义为条件生成式帧模型 ，该模型可根据单张参考图像与用户设定的相机运动，合成三维场景的新视角图像。设参考图像为 x r e f ∈ R H × W × 3 x_{ref} \in \mathbb{R}^{H ×W ×3} xref∈RH×W×3，其对应的相机位姿为 π r e f = ( K r e f , E r e f ) \pi_{ref}=(K_{ref}, E_{ref}) πref=(Kref,Eref)，其中 K K K 代表相机内参矩阵， E E E 代表相机外参矩阵。给定目标相机位姿 π t g t \pi_{tgt} πtgt，模型的目标是生成与 x r e f x_{ref} xref 保持几何一致的目标视角图像 x t g t x_{tgt} xtgt。

本工作基于潜空间扩散框架 开展研究。设 ε \varepsilon ε 与 D D D 分别为预训练变分自编码器（VAE）的编码器与解码器。图像生成的本质是训练条件去噪模型 ϵ θ \epsilon_{\theta} ϵθ，在潜空间 z = E ( x ) z=E(x) z=E(x) 中逆转前向扩散过程。具体而言，模型需要学习预测扩散时间步 t t t 下，叠加在目标潜变量 z t g t z_{tgt} ztgt 上的噪声 ϵ \epsilon ϵ，对应的损失函数定义为：

L = E z t g t , ϵ ∼ N ( 0 , I ) , t $∥ ϵ - ϵ θ ( z t , t , C ) ∥ 2$ \mathcal{L}=\mathbb{E}{z{tgt}, \epsilon \sim \mathcal{N}(0, I), t}\left $\\left\\\| \\epsilon-\\epsilon_{\\theta}\\left(z_{t}, t, \\mathcal{C}\\right)\\right\\\| \^{2}\\right$ L=Eztgt,ϵ∼N(0,I),t $∥ϵ-ϵθ(zt,t,C)∥2$

式中， z t = α t z t g t + σ t ϵ z_{t}=\alpha_{t} z_{tgt}+\sigma_{t} \epsilon zt=αtztgt+σtϵ 为时间步 t t t 下的带噪潜变量， ( α t , σ t ) (\alpha_{t}, \sigma_{t}) (αt,σt) 为预设的噪声调度参数； C = { x r e f , π r e f , π t g t , x ^ t g t } \mathcal{C}=\{x_{ref}, \pi_{ref}, \pi_{tgt}, \hat{x}{tgt}\} C={xref,πref,πtgt,x^tgt} 为完整条件集。其中 x ^ t g t \hat{x}{tgt} x^tgt 是借助三维基础模型 $34,36,35,21$ 得到的目标视角点云渲染图，作为显式三维空间锚点使用。

为实现实时交互式渲染，本文设计三阶段训练流程，逐步将基础图像生成器迭代为高效的实时帧模型：

第一阶段：预训练。选用高效且表达能力优异的扩散变换器作为主干网络，构建高保真图像生成先验。主干模型的选取同时兼顾生成质量与计算效率，计算效率直接决定模型落地实时任务的可行性。
第二阶段：中期训练。将预训练图像生成器改造为搭载空间记忆机制的可操控帧模型。该阶段需要基于真实视频数据集与合成场景构建专属训练数据，对网络结构进行改造以支持相机条件生成，并设计融合显式三维锚点与隐式神经记忆的混合空间记忆机制。
第三阶段：后训练。通过分布匹配蒸馏技术，将多步扩散模型压缩为高效少步生成器，使模型能够在消费级显卡上完成实时交互式渲染。

2.3 预训练

基础图像生成模型的选择至关重要，需要同时满足两项要求：一是生成图像纹理与场景几何结构逼真、保真度高；二是计算效率足以支撑后续实时部署。本文选取 PixArt-Σ $8$ 作为基础模型。PixArt-Σ 是一款轻量化文生图扩散变换器（DiT），在计算开销大幅降低的同时，生成质量可媲美当前主流模型，在生成效果与推理速度之间实现了良好平衡，十分适合作为实时帧模型的主干网络。

2.4 中期训练

中期训练的目标是将预训练图像扩散模型，改造为可生成空间一致、支持交互操控画面的帧模型。尽管基础扩散模型能够实现高质量单图合成，但这类模型本身不具备空间一致性建模能力，也无法接受交互控制指令。因此本文针对性构建专属训练数据、改造网络结构，让模型具备动作条件控制能力与空间一致性约束能力。

2.4.1 基础帧模型

为实现真正意义上的实时推理，本文采用极简的基于帧 架构作为在线推理模型，每一帧图像均独立生成。为保证连续推理过程中的多视角一致性，同时避免多帧联合处理，模型融合显式三维锚点（点云渲染图）与隐式空间记忆（参考帧注意力机制），在单帧推理的前提下维持场景几何结构的连贯性。

模型架构

InSpatio-WorldFM 以参考图像、目标视角带噪潜变量、用户设定的相机运动作为输入，生成目标视角图像。

本文采用仅包含自注意力的变换器结构注入条件信息。实验表明，相较于交叉注意力，通过自注意力注入条件信息能够获得更优的生成效果。变换器的输入由三部分沿宽度维度拼接而成：目标视角带噪潜变量 z t z_{t} zt、目标视角点云渲染图（条件1）、参考帧图像（条件2）。三部分输入通过共享的分块嵌入层转换为分块令牌，并叠加正弦位置编码。数据经过完整变换器网络后，沿宽度维度对输出特征进行拆分，仅保留目标图像对应的部分作为最终预测结果。

图3：InSpatio-WorldFM 推理流程。左侧为WorldFM的条件化新视角合成流程。WorldFM以参考图像 x r e f x_{ref} xref（隐式场景记忆）、带噪潜变量 z t z_{t} zt、目标视角点云渲染图 x ^ t g t \hat{x}{tgt} x^tgt（显式三维锚点）作为输入，三者沿宽度维度进行空间拼接。参考位姿 π r e f \pi{ref} πref与目标位姿 π t g t \pi_{tgt} πtgt同样作为控制信号输入。基于帧的扩散变换器模块结合上述条件，借助分布匹配蒸馏（DMD）技术实时合成目标视角图像 I t g t I_{tgt} Itgt。右侧为WorldFM中扩散变换器模块的详细架构。模型通过投影相对位置编码（PRoPE）策略实现相机几何控制，强化跨视角几何推理能力。混合空间记忆机制结合了点云渲染（显式三维锚点）与参考图像（隐式记忆），二者仅通过自注意力机制交互，以此构建稳健的三维一致性。
目标视角点云渲染 x ^ t g t \hat{x}_{tgt} x^tgt（显式三维锚点）是利用相机内外参，将全局 3D 点云投影到目标相机平面得到的；

相机位姿编码

将相机几何信息融入变换器网络，是实现可控新视角生成的核心。本文对比了三种相机位姿信息注入方案：

普吕克射线嵌入 $15,1,2$ ：针对每一个分块令牌，在世界坐标系下计算6维普吕克坐标 ( o × d , d ) (o ×d, d) (o×d,d)（其中 o o o 为相机原点， d d d 为穿过分块中心的射线方向）。该特征经由两层多层感知机映射至网络隐藏维度后，叠加至分块嵌入特征中。该方法可为每个令牌提供显式几何先验，但仅以叠加方式注入相机信息，无法直接调控注意力计算过程。
投影相对位置编码（PRoPE） $20$ ：该方案将相机几何信息直接融入注意力机制。对任意视角 i i i 的相机投影矩阵 P i P_{i} Pi，使用 P i ⊤ P_{i}^{\top} Pi⊤ 对查询张量做线性变换，使用 P i − 1 P_{i}^{-1} Pi−1 对键、值张量做线性变换，同时结合二维旋转位置编码表征图像内部空间结构。该设计让注意力机制原生具备跨视角几何对应关系推理能力。
纯参数嵌入 $3$ ：将相机位姿参数（旋转矩阵、平移矩阵）通过可学习的多层感知机直接映射为令牌级嵌入特征，叠加至网络隐藏层特征中，该方案不会引入射线、投影矩阵等显式几何结构。

本文最终选用投影相对位置编码（PRoPE）。实验证明，该方案收敛速度最快，相机控制效果也最为稳定。普吕克射线嵌入仅能叠加相机信息，而PRoPE可通过相机相关线性变换直接调控注意力计算，让注意力模块自主完成跨视角几何匹配推理。

相机位姿编码的核心作用

在 InSpatio-WorldFM 这一相机可控新视角生成模型 中，相机位姿编码是将相机位姿 π r e f \pi_{ref} πref（参考相机）、 π t g t \pi_{tgt} πtgt（目标相机）对应的三维几何信息（相机位置、朝向、成像规则）转化为神经网络可解析特征，并注入扩散变换器（DiT）的关键技术。结合论文的实时交互、多视角一致性、场景漫游三大核心目标，其具体作用可分为5项：

解析相机运动指令，实现视角可控生成 用户通过摇杆操控虚拟相机运动，本质是持续更新目标相机位姿 π t g t \pi_{tgt} πtgt。位姿编码将抽象的相机位移、旋转指令转化为网络特征，让模型精准识别"待生成的观测视角"，是实现交互式场景漫游的底层基础。

注入三维几何先验，抑制空间误差漂移 传统视频类世界模型仅建模帧间时序关系，无显式相机几何约束，长期生成易出现场景结构漂移。相机位姿编码量化了参考视角与目标视角的空间变换关系，配合点云渲染（显式3D锚点）、参考帧记忆（隐式记忆）构建强几何约束，从根源缓解空间误差累积问题。

弥补纯视觉网络的三维感知短板 模型主干为扩散变换器（DiT），这类纯视觉网络原生不具备相机成像、三维空间推理能力。相机位姿编码主动补充成像几何规则，赋予网络跨视角空间匹配能力，保障新视角图像的合理性。

适配自注意力架构，强化跨视角特征交互 本文采用纯自注意力完成条件信息注入，部分位姿编码方案（如PRoPE）会深度结合注意力计算逻辑，让网络在特征交互时同步考量相机几何关系，提升不同视角间视觉特征的匹配精度。

协同3D锚点，巩固全局场景结构 论文中的显式3D锚点（目标视角点云渲染）依赖相机内外参完成"三维点云→二维像素"的投影；相机位姿编码则从相机视角维度补充约束，二者形成互补，双重保障全局场景的几何一致性。

混合空间记忆

生成多视角一致图像的核心难点，是维持三维场景记忆的连贯性。现有实时帧模型（RTFM） $37$ 以带位姿图像作为基础空间记忆，StarGen $45$ 则对关键帧提取的特征做形变处理以提供空间条件。为构建更持久、稳定的空间记忆，本文采用融合显式三维锚点 与隐式神经记忆的混合设计方案：

显式锚点：针对每个目标视角，利用点云渲染图与对应相机位姿构建稳定的三维几何约束，作为全局三维先验，将图像生成约束在三维空间内。点云可有效维持场景粗粒度几何结构，再结合隐式记忆补充细粒度视觉外观。
隐式记忆：参考帧图像及其相机位姿，提供历史视角的外观信息。变换器通过自注意力机制读取对应令牌特征，隐式地提取、迁移有效视觉内容至目标视角。

两类空间记忆相互配合：显式锚点保障粗粒度几何结构与全局三维约束，隐式记忆保留细粒度视觉细节，同时让模型能够对未观测区域生成合理内容，最终实现强鲁棒的多视角一致性。

训练数据

本文训练数据来源于三类：公开视频数据集（如互联网视频、DL3DV $22$ 、RealEstate10K $51$ 等）、团队实地采集视频、虚幻引擎（UE） $12$ 生成的合成数据。对于每一段真实视频片段，随机抽取16帧图像，借助前向重建模型（如MapAnything $17$ ）估计每一帧的相机位姿与深度图。从16帧中选取4帧作为参考帧组，构建全局点云；剩余12帧作为训练目标帧。针对每个目标帧，从4帧参考组中选取时间上最邻近的图像作为参考图。将全局点云投影至目标相机平面，得到目标视角点云渲染图。为提升模型鲁棒性，训练过程中引入随机打乱与特征掩码策略，模拟真实场景中画面无序、离散的情况。

训练策略

本文设计多项训练策略，引导模型学习稳定的几何特征、强化空间记忆能力：

噪声调度偏置：训练过程中提高高噪声时间步的采样概率，让模型优先学习场景粗粒度空间布局，再逐步优化纹理细节。
渐进式条件注入：若训练初期同时输入显式锚点（点云渲染图）与隐式记忆（参考帧），模型会快速过拟合信号更强的显式锚点，进而弱化对隐式记忆的利用能力。为此本文采用渐进式注入策略：训练前期仅输入参考帧（隐式记忆）作为条件，迫使模型充分学习并运用隐式空间线索；训练后期再逐步引入显式锚点，提升控制精度。
随机锚点掩码：训练后半段以一定概率随机屏蔽显式锚点。该正则化手段可避免模型过度依赖三维先验，持续保留利用隐式记忆完成生成的能力。

2.4.2 基于合成数据的微调

基于真实数据训练得到的基础帧模型，已具备不错的生成能力与几何一致性。但前向重建模型输出的深度、位姿结果不可避免存在误差，会导致点云渲染图出现跨视角不一致问题，进而影响视角切换的稳定性与场景内容的持久度。

为解决该问题，本文基于虚幻引擎 $12$ 构建合成数据集，该数据集可提供精准的真值相机位姿与深度信息。具体构建流程：首先在场景语义合法区域选定初始相机位姿，再通过随机运动采样或预设运动模板生成相机运动轨迹；同时加入碰撞规避约束，保证所有视角均有效。合成数据的训练对构建规则与真实数据保持一致：选取4帧作为参考组，12帧作为目标帧。

本文仅使用合成数据对基础帧模型进行有限步数微调。刻意控制微调幅度，是因为在合成数据分布上过度训练，会损害模型在真实图像上生成自然外观的能力。实验证明，仅需少量合成数据微调，就能显著提升相机控制下视角切换的稳定性。这说明模型可有效利用合成数据精准的几何信息优化空间推理能力，同时保留真实图像的外观生成先验。

2.5 后训练

后训练阶段的目标是将第二阶段得到的多步帧模型，优化为可支撑实时交互式渲染的高效生成器。本文采用分布匹配蒸馏（DMD） $42$ 技术，将多步扩散模型蒸馏为少步生成器，在空间一致性与视觉保真度损失极小的前提下，大幅提升推理速度。

分布匹配蒸馏

分布匹配蒸馏的核心思路是训练少步扩散学生模型，使其输出分布与预训练多步扩散教师模型保持一致。该方法通过最小化真实分布（由教师模型定义）与生成分布（由学生模型定义）之间的近似KL散度实现优化。训练过程会同时维护两个扩散模型：一个冻结的教师模型，用于估计真实分数；另一个动态更新的模型，基于生成器输出估计伪造分数。将两者去噪预测结果的差值作为梯度信号，更新生成器网络。同时，在教师模型确定性采样器预先构建的噪声-图像对上补充回归损失，稳定训练过程并保证生成内容的多样性。该方法是变分分数蒸馏（VSD）的延伸，可在保证生成质量的前提下实现少步推理加速。

适配 InSpatio-WorldFM 的优化方案

本文将分布匹配蒸馏应用于中期训练完成的帧模型，蒸馏得到少步生成器。经过大量实验，总结出两项关键结论：

两步去噪效果优于单步去噪：分布匹配蒸馏最初面向单步生成设计，但实验表明，两步去噪能够生成更清晰的细节，更好保留纹理特征。纯噪声直接单步去噪虽能还原粗粒度几何结构，但难以在单次前向传播中重建精细细节；额外增加一步去噪可专门用于细节优化，弥补该缺陷。
中间时间步的选取至关重要 ：两步去噪流程为：第一步从总时间步 T T T 去噪至中间时间步 t m i d t_{mid} tmid，第二步从 t m i d t_{mid} tmid 继续去噪至 t = 0 t=0 t=0。若 t m i d t_{mid} tmid 取值过大（第一步结束时仍处于高噪声状态），第二步就需要在高噪声条件下单步去噪，会重现单步生成难以还原细节的问题。经过系统性测试，在总步数为1000的噪声调度下，取 t m i d = 200 t_{mid}=200 tmid=200 可实现最优平衡：第一步完成大部分去噪工作，搭建场景粗粒度空间结构；第二步在噪声较低的特征基础上优化，高效还原精细视觉细节。

经过蒸馏后的模型，在长时间交互过程中仍可维持空间一致性与视觉保真度，连续生成的帧时序连贯，长时间场景漫游也不会出现明显内容漂移。

3 实验评估

本文针对中期训练得到的基础帧模型、以及经过后训练蒸馏优化的模型，在多种场景下开展实验，从空间一致性与生成质量两大维度对 InSpatio-WorldFM 进行综合评测。

图4：教师模型可视化结果。

如图4所示，每组样例均包含一张参考图像，以及从不同相机视角渲染得到的连续10帧画面。基础帧模型展现出优异的多视角一致性，即便相机视角发生大幅变化，场景几何结构与外观特征也能始终保持统一。模型生成的画面不仅保留了丰富的细节，还能自然适配全新视角，证明其具备可靠的三维空间关系推理能力。

图8：InSpatio-WorldFM 可视化结果。在不同观测距离下，该帧模型生成的内容与精细细节均能保持一致。

为实现实时交互，本文借助分布匹配蒸馏得到轻量化模型，用于低延迟部署。在分辨率为 512 × 512 512\times512 512×512 的基础配置下，结合键值缓存管理、VAE 潜变量缓存等工程优化手段，该模型在单张H系列显卡上的帧率可达约25帧每秒。同时由于模型显存占用低，在RTX 4090显卡上运行时帧率也能达到10帧每秒。

蒸馏操作会带来一定的画质与速度权衡，但在实际视觉体验中，二者的差异几乎难以察觉。对比基础模型与蒸馏后模型的输出结果可以发现，InSpatio-WorldFM 完整保留了原有的空间一致性与几何精度。经过加速后的模型，在各类相机运动轨迹下均可生成合理画面，场景结构一致性未出现明显下降，也未产生视觉伪影，证实本文所采用的蒸馏方案能够在实时性能与生成画质之间实现良好平衡。

在基于不同历史帧上下文的长时渲染测试中，无论观测距离如何变化，模型生成画面的几何结构与细节特征始终保持稳定，充分验证了本文空间记忆机制的有效性。

4 讨论与结论

本文提出了面向空间智能的开源实时生成式帧模型 InSpatio-WorldFM。该模型采用基于帧的生成范式，融合显式三维锚点与隐式空间记忆，在保障多视角空间一致性的同时，实现了低延迟的实时推理。

4.1 局限性

尽管本工作取得了一定进展，但要打造具备沉浸式体验的实时生成式世界模型，仍面临诸多挑战：

动态内容的稳定生成：无论是帧式模型本身，还是用于训练的多视角一致数据集，所包含的动态场景样本都较为有限，导致模型难以高质量、稳定地生成动态画面。
运动范围受限：当前模型的历史记忆依赖多视角一致观测结果或全景观测结果。而这类生成模型计算复杂度高、显存开销大，仅支持离线运行，进而使得模型在线推理阶段存在运动边界的限制。
交互视觉稳定性：基于帧的建模方案有效降低了交互延迟、提升了响应速度，但由于连续帧之间缺少时序约束，交互过程中画面会出现明显的抖动现象。

4.2 未来工作

实时空间推理技术仍有较大的优化与拓展空间。针对帧式推理架构，可引入线性注意力、高效缓存机制、VAE 优化等成熟的加速技术，进一步降低计算开销、提升帧率，让空间推理任务能够在终端设备上高效运行。此外，还可将高斯泼溅（GS）图元作为三维锚点，进一步提升生成画面的视觉效果与反射渲染能力。

除了推理效率与画面质量的优化，后续研究将重点围绕两大方向展开：一是提升动态内容的生成能力；二是实现生成范围的实时拓展。相关研究将为高效率、范围近乎无边界的真实场景建模与空间推理任务奠定基础。

思考

针对现有主流视频类世界模型依赖序列帧与窗口级处理，存在交互延迟高、长期生成易出现空间误差累积与场景几何漂移的问题，加之同方向的实时帧模型RTFM公开技术信息有限且未开源，本文提出了开源实时生成式帧模型InSpatio-WorldFM；

该模型整体分为离线与在线两大运行阶段，并配套一套渐进式三阶段训练流程，先以PixArt-Σ为骨干网络完成图像扩散模型预训练，再结合真实视频数据集与虚幻引擎合成数据，将基础图像模型改造为支持相机控制的帧模型，最后利用分布匹配蒸馏实现两步去噪以完成推理加速。在推理过程分为两个阶段，其中离线阶段依靠多视角一致性模型与三维重建获取三维锚点和场景参考外观，在线阶段则采用单帧独立生成的架构完成新视角图像实时合成；

其核心创新在于摒弃传统视频序列生成范式，从架构上降低推理延迟，设计结合显式三维锚点与隐式参考帧记忆的混合空间记忆机制保障多视角几何一致性，选用投影相对位置编码（PRoPE）将相机几何信息深度融入注意力计算以强化跨视角推理能力，同时通过渐进式条件注入、随机锚点掩码等训练策略进一步提升模型鲁棒性；

实验结果显示，该模型在视角切换与长时间场景漫游过程中均能维持稳定的画面细节与场景结构，不会出现几何漂移和视觉伪影，推理性能优异，可在RTX 4090等消费级显卡上运行，在H系列显卡上帧率可达25FPS，能够实现低延迟交互式场景探索，为实时空间仿真与空间智能任务提供了传统视频类世界模型的优质开源替代方案。