lingbot-world：Advancing Open-source World Models——推进开源世界模型

一、研究目标与定位

LingBot-World 是一个源于视频生成、面向交互式模拟的开源世界模型，旨在：

从传统的"文本生成视频"转向"文本生成可交互世界"；
弥合开源与闭源世界模型之间的差距；
支持内容创作、游戏、机器人学习等实际应用。

二、核心特点

高保真与强动态：支持真实感、科学可视化、卡通等多种环境；
长时程一致性：具备"长期记忆"，可在分钟级别保持上下文一致；
实时交互：在 16 帧/秒生成下，延迟低于 1 秒；
完全开源：代码、模型权重、检查点均可公开获取。

三、三大技术支柱

1. 数据引擎

混合采集：包括真实视频、游戏录制、Unreal Engine 合成数据；
层次化字幕生成：生成叙事、场景静态、密集时间三种描述，解耦运动与场景；
数据过滤与标注：使用 VLM 进行语义分析，生成相机姿态伪标签。

2. 多阶段训练流程

预训练：基于 14B 参数的 Wan2.2 模型，建立高保真视频生成能力；
中间训练：
- 采用 MoE（混合专家）架构，共 28B 参数；
- 训练长期一致性、空间记忆、动作可控性；
- 支持图像到视频、视频到视频的多任务学习；
后训练：
- 将双向扩散模型转为因果自回归模型；
- 使用分块因果注意力 + KV 缓存；
- 引入分布匹配蒸馏（DMD） + 对抗训练，实现少步推理（< 1 秒延迟）。

3. 应用能力

可提示的世界事件：支持全局（天气、风格）和局部（物体、特效）的文本控制；
行动智能体：训练 Qwen3-VL 模型预测动作（键盘 + 鼠标），驱动世界生成；
3D 重建：从生成视频中重建高质量点云，验证几何一致性。

四、实验评估

定性分析

在多样化场景中生成高质量、长时程（最长 10 分钟）视频；
展现出涌现的记忆能力：地标离开视野 60 秒后仍能准确重建；
能推理未观察区域的状态变化（如车辆继续行驶）。

定量分析

使用 VBench 与 Yume-1.5、HY-World 1.5 对比：

在动态程度、成像质量、美学质量、整体一致性上均领先；
动态程度得分 0.8857，显著高于对手（0.7612 / 0.7217）。

五、局限性与未来方向

局限性

记忆稳定性不足（依赖上下文窗口，无显式存储）；
推理成本高（需企业级 GPU）；
动作空间有限（主要为导航）；
精细交互困难（如抓取特定物体）；
存在长时漂移现象；
仅支持单智能体。

未来计划

设计显式记忆模块；
扩展动作空间与物理引擎；
解决漂移问题，实现无限时长模拟；
支持多智能体交互。

六、贡献者与开源信息

项目由多个子团队协作完成，涵盖模型、数据、后训练、应用等模块；
代码、模型、检查点已全部公开。

论文核心贡献是：首次将视频生成模型系统性地演进为一个高性能、可交互、开源的世界模拟器 ，在数据、模型架构、训练策略和应用层面都做出了系统性的创新，并为未来具身智能、游戏、内容生成等领域提供了强大的开放平台。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

项目地址在这里，如下所示：

预训练模型如下：

Model	Control Signals	Resolution	Download Links
LingBot-World-Base (Cam)	Camera Poses	480P & 720P	🤗 HuggingFace 🤖 ModelScope
LingBot-World-Base (Act)	Actions	480P & 720P	🤗 HuggingFace
LingBot-World-Fast	Camera Poses	480P & 720P	🤗 HuggingFace

我们推出 LingBot-World，一个源于视频生成的开源世界模拟器。作为定位顶级的世-界模型，LingBot-World 提供以下特性：(1) 在广泛的环境中保持高保真度和强大的动态特性，包括现实场景、科学环境、卡通风格等。(2) 实现分钟级别的生成长度，同时保持随时间的上下文一致性，这也被称为"长期记忆"。(3) 支持实时交互，在生成每秒 16 帧的视频时实现低于 1 秒的延迟。我们公开提供代码和模型，旨在缩小开源与闭源技术之间的差距。我们相信，我们的发布将为社区在内容创作、游戏和机器人学习等领域的实际应用提供支持。

图 1. 跨不同环境的交互式世界模拟。该图展示了 LingBot-World 生成的精选样本，展示了其在包括真实感景观、科学可视化和风格化艺术世界在内的各个领域合成高保真视频的能力。叠加的键盘图标（W, A, S, D）突显了模型的可控性，允许用户无缝地导航和交互这些动态环境。

1 引言

长期以来，追求能够理解和模拟物理世界的人工智能 $41, 84$ 一直被视为计算机视觉和机器学习领域的"圣杯"。我们当前正见证着生成模型的范式转变，从静态的"文本到视频"生成 $7-9, 64$ 转向更雄心勃勃的"文本到世界"模拟目标 $2, 5, 24, 27, 28, 45, 53, 68, 69, 73, 74$ 。尽管最先进的视频生成模型 $25, 63, 71, 72, 77, 90$ 在渲染短的、视觉上连贯的片段方面取得了显著的保真度，但它们从根本上仍然是"梦想家"而非"模拟器" $9, 35$ 。它们基于统计相关性"幻化"像素转换，但通常缺乏对底层法则（如因果关系、物体恒常性和交互后果）的具身理解。弥合这一差距使得从生成被动镜头过渡到构建能够合成持久、交互式和逻辑一致环境的世-界模型变得至关重要。

然而，从视频生成到世界模拟的转变 $1, 27, 78, 80, 89$ 面临着重大挑战。首先，高质量的交互数据稀缺；与被动网络视频不同，能够捕捉智能体决策与环境反应之间复杂相互作用的数据难以规模化 $22, 48$ 。其次，对于标准扩散架构而言，维持长达一分钟轨迹（而非仅仅几秒钟）的叙事和结构连贯性仍然是一个未解决的挑战，这些架构容易出现"灾难性遗忘" $7, 8$ 。最后，传统扩散采样的计算 prohibitiveness 使得实时控制不可能，将大多数现有模型限制于离线渲染而非实时交互。此外，该领域最先进的解决方案仍然是专有的，造成了阻碍更广泛社区创新的鸿沟。

在本报告中，我们介绍 LingBot-World，一个全面的开源框架，旨在打破这些障碍并推动大型世界模型研究的民主化。LingBot-World 不仅仅是一个生成模型；它是一个被设计来学习虚拟世界动态并实时渲染它们的整体系统。LingBot-World 建立在三个战略支柱之上，这些支柱将我们的模型与现有解决方案区分开来：

一个具有分层语义的可扩展数据引擎。 我们通过构建一个混合引擎来解决数据瓶颈，该引擎摄取多种数据源，包括真实世界镜头、游戏引擎录制以及来自虚幻引擎的合成数据。至关重要的是，为了解决原始数据中缺乏细粒度控制的问题，我们引入了一种分层字幕生成策略 $15, 16, 82$ 。通过生成不同的叙事、场景静态和密集时间字幕，我们有效地将运动控制与静态场景生成分离开来，使模型能够学习精确的、依赖于动作的动态。

一个多阶段进化训练流程。 我们提出了一种渐进式训练策略，将基础视频生成器演变为交互式模拟器，包括三个阶段：预训练、中间训练和后训练。在第一阶段，通过预训练建立强大的通用视频先验，以支持高保真纹理生成。在第二阶段，即中间训练，我们采用混合专家（MoE）架构 $17, 19, 36, 77$ 来融入世界知识并实现动作可控性，重点关注"长期记忆"并在扩展的时间跨度内保持环境一致性。在第三阶段，我们优化模型以实现实时推理。通过因果注意力适配和少步蒸馏 $44, 59, 65$ ，双向扩散模型被后训练成一个高效的、具有亚秒级延迟的自回归系统 $10, 30$ 。

面向具身 AI 的多功能应用。 除了视觉合成，LingBot-World 还可作为下游任务的实际测试平台 $1, 6, 20, 26, 29, 57, 58, 78, 92$ 。它支持可提示的世界事件，允许用户通过文本提示语义地引导全局条件和局部动态。此外，它促进了行动智能体的训练，并能够从生成的视频中进行一致的 3D 重建 $34, 50, 83$ ，从而验证其几何完整性。

为了将我们的贡献置于背景中，表 1 将 LingBot-World 与最近的交互式世界模型进行了比较。虽然像 Genie 3 $5$ 和 Mirage 2 $73$ 这样的系统已经取得了进展，但它们通常会在动态程度上有所妥协或仍然是闭源的。LingBot-World 的与众不同之处在于，它提供了通用领域能力、长生成时长和实时的高动态程度，同时完全开源。通过发布代码和模型权重，我们旨在激发新一轮创新浪潮，赋能社区构建下一代虚拟世界。

通过开源 LingBot-World（包括我们的模型权重和推理代码库），我们旨在激发新一轮创新浪潮。我们邀请社区超越被动观看视频，加入我们，共同构建下一代无限的、可玩的、交互式的虚拟世界。

表 1. 与近期交互式世界模型的比较。LingBot-World 在通用领域内结合了高动态程度和长生成时长，同时是唯一完全开源的高能力模型。

模型	领域	生成时长	动态程度	分辨率	实时	开源
Matrix-Game 2.0 $27$	游戏	短	低	480p	✓	✓
Yume-1.5 $45$	通用	短	低	480p	×	✓
HY-World 1.5 $68$	通用	中	低	720p	✓	✓
Mirage 2 $73$	通用	长	中	480p	✓	×
Genie 3 $5$	通用	长	中	720p	✓	×
Ours	通用	长	高	720p	✓	✓

2 数据引擎

构建一个能够稳健处理新颖视角、复杂动态和长时程规划的世界模型，需要严谨的数据策略。我们通过将数据引擎构建为一个包含三个协同组件的统一流程来解决这个问题：(i) 数据采集，(ii) 数据分析，(iii) 数据字幕生成。

为了构建该系统的基础，我们的数据采集阶段采用了一种混合收集策略，旨在保证丰富、高质量和交互式的训练语料库。首先，我们策划一个大规模、高质量、多样化视频的数据集，包含第一人称 $17, 22$ 和第三人称 $4, 66$ 视角的人类、动物和车辆。其次，为了捕获精确的、依赖于动作的动态，我们采集游戏数据，其中 RGB 帧与用户控制输入（例如 W, A, S, D）和相机参数严格配对。最后，我们使用虚幻引擎 (UE) $18$ 开发了一个合成渲染流程。通过集成授权资产与自定义构建的环境，我们设计了一个自动化渲染工作流，生成无碰撞、随机但合理的相机轨迹，产生与真实相机内参和外参对齐的 RGB 流。高层概念如图 2 所示。

采集之后，数据分析组件作为一个关键的标准化层。为了统一多样化的输入（其中通用视频相比游戏或 UE 数据缺乏相机信息），我们首先利用最先进的姿态估计模型 $33, 61, 62$ 为相机内参和外参生成伪标签。然后，系统执行基本过滤，根据分辨率和时长丢弃不合格的样本，同时采用现成的算法将镜头切割成适合训练的片段 $11, 67$ 。最后，我们利用视觉语言模型 (VLM) $54, 56, 70$ 执行语义分析，评估诸如视觉质量、运动幅度和场景视角等属性，以策划过滤后的数据集。

在采集和过滤之后，数据字幕生成模块最终使用视觉语言模型 (VLM) $42, 75$ 用语义元数据丰富语料库。我们实施了一种分层注释策略，生成三个不同层次的描述，以确保对视频内容的多粒度理解。这包括一个综合性的叙事字幕（将环境和相机运动编织成一个全局故事）、一个专注于纯粹环境的场景静态字幕，以及提供细粒度、时间对齐的特定事件描述的密集时间字幕。

2.1 数据采集

2.1.1 通用视频策展器

鉴于内部收集和开源存储库中都有大量原始视频数据可用，有效的数据选择至关重要 $9, 23, 55$ 。我们开发了一个通用视频策展器，旨在过滤和检索与我们的特定训练目标相符的高价值样本。此策展过程优先考虑多样化的世界探索视频内容类别，旨在最大化运动模式和环境上下文的广度。这包括从不同视角（从人类和动物的自我中心视角到第三人称相机角度）捕获的广泛运动类型（例如，步行、骑行、交通）。

2.1.2 游戏数据采集

我们开发了一个专用的游戏数据采集平台，旨在高保真地捕获和同步视觉数据、智能体动作和相机运动 $49$ 。为了确保原始视觉基线，显示环境被配置为排除界面叠加，通过适当的编解码器保证一致的视觉质量。用户控制信号以高精度时间戳注册，以保证与视频帧同步。此外，记录的相机轨迹也被保存以确保可靠的几何信息。

为了确保我们的游戏数据涵盖多样化的行为和环境复杂性，我们建立了一个标准化的收集策略，分为四个主要类别：

图 2. 游戏和合成数据采集。该系统利用计算资源和软件平台，捕获与动作信号和相机状态在时间上对齐的视觉观察。

2.1.2 游戏数据采集

为了确保我们的游戏数据涵盖多样化的行为和环境复杂性，我们建立了一个标准化的收集策略，分为四个主要类别：

导航： 涵盖在虚拟世界中的一般移动。
- 自由导航： 启用在随机轨迹上的随机探索；
- 循环漫游： 记录闭环路径或多点往返行程；
- 过渡导航： 针对高变化场景转换，例如离开建筑物或在不同的室内环境之间切换。
观光： 专注于细粒度观察。这涉及在静态和动态环境中仔细检查场景细节，以及围绕地标物体环绕以捕获多视角一致性。
长尾场景： 针对标准数据集中经常缺失的罕见但关键的数据分布。
- 静止观察： 在没有平移运动的情况下从固定位置捕获数据，包括 360 度旋转以映射静态环境，以及固定角度凝视以记录随时间演变的动态元素（例如，人群或交通）。
- 向后导航： 在保持情境感知的同时后退。
世界交互： 捕获因果性的智能体-环境关系，范围从局部动作（例如，捡起物品，开门）到触发重大状态变化的影响性事件（例如，战斗，破坏）。

2.1.3 合成渲染流程

我们的合成渲染流程利用虚幻引擎 $18$ 生成可扩展的合成数据集，具有精确的相机姿态和可定制的导航轨迹。该流程提供两个主要优势：首先，它提供了有效的动作训练所需的精确且时间对齐的相机姿态------这种保真度通常无法通过现实世界的传感器实现。其次，它允许我们扩展轨迹多样性，超越现实世界数据集的偏差（这些数据集常常被诸如前向运动等简单模式所主导），并增加空间记忆所需的再观测轨迹的密度。

为了实现这些能力，我们开发了一个简化的自动化工作流程。该过程首先在场景内随机采样一个具有语义意义的位置和方向作为起点。从该位置开始，系统通过随机参数采样或利用导入的运动先验自动生成相机轨迹。每条生成的轨迹都经过严格的碰撞检测。最后，确认的轨迹被处理用于视频渲染，同时导出同步的真实相机姿态。

为了用多样化和真实的运动填充此工作流程，轨迹生成阶段以两种不同的模式运行，旨在平衡随机多样性与行为真实性。

程序化路径生成： 此模式自动合成复杂的相机运动，以最大化环境探索，重点关注两种主要算法策略：
- 几何模式合成： 系统生成结构化轨迹，包括不同尺度的随机矩形路径和多圈 360∘ 旋转（角速度多样）。这些模式提供全面的全景上下文，并通过重复的环境覆盖增强长期空间一致性。
- 多点插值： 此策略采样随机的空间航点，并带有往返过渡，这专门加强了关系性空间记忆。
现实世界轨迹导入： 此模式将从物理设备捕获的路径直接映射到虚幻引擎中。它融合了真实的人类浏览行为，例如重复扫视房间或重新访问感兴趣的物体，同时保留手持运动的细微差别（例如，自然抖动和有机的速度变化），以反映实际用户交互的随机性和时间复杂性。

2.2 数据分析

数据采集之后，数据分析引擎执行综合分析，为每个视频提取多维元数据。如图 3 所示，此过程在三个不同的粒度级别上运行。

2.2.1 基本过滤与时间分割

在基础层面，我们提取基本的文件属性，包括视频时长、分辨率和文件大小，以建立数据集的基本索引。在此元数据的指导下，我们剔除不合格的样本，特别是那些分辨率不足或时长不够的样本。随后，我们利用 Koala $82$ 提供的分割算法和 TransNet v2 $67$ 将镜头分割成适合训练的片段。这种方法保留了每个片段在语义上的连贯性和一致性，为下游处理确保了高质量的视频源。

2.2.2 语义分析

进入语义分析阶段，我们采用内部的视觉语言模型（VLM）来提取一组全面的过滤属性。具体来说，该模型评估视觉质量（包括亮度和清晰度）、量化运动幅度，并识别场景类型和视角（例如，第一人称 vs. 第三人称）。这些语义描述符为下游处理中的精确数据选择提供了坚实的基础。

为了解决原始视频中缺乏几何信息的问题，我们进一步利用 MegaSAM $37$ 为缺乏几何信息的视频生成相机姿态注释。这确保了所有选定的样本都具备训练所需的必要 3D 结构先验。

最终，这种两阶段的分析策略弥合了原始视频集合与可训练资产之间的差距。通过将基本物理属性与高层语义描述符以及内在几何数据分层结合，我们为后续的训练阶段建立了坚实的基础。

2.3 数据字幕生成

在数据被策展和分析之后，我们引入分层字幕生成模块。为了有效地训练世界模型，我们设计了一种专门的注释策略，超越了简单的标记。我们为每个视频生成三类不同的字幕，以满足不同粒度的语义控制和运动解耦需求：

图 3. 数据分析引擎概述。该过程弥合了原始视频集合与可训练资产之间的差距。它集成了物理属性过滤、语义分析和几何注释，为后续的分层字幕生成奠定了坚实的基础。

综合性叙事字幕： 此类字幕提供对整个视频的整体和详细描述，将视觉环境与相机的轨迹和时间演变交织在一起。它作为一个全局语义提示。
- 示例： 视频展现了一场宁静的、第一人称的探索，场景是一个精心设计的东亚风格庭院或寺庙内部。旅程从走近一组描绘着凤凰的、色彩丰富的木制屏风开始，暗示了该空间的文化意义。当相机向前滑动并左转时，揭示了室内的深度，展示了一个高耸的条纹柱子、柔和发光的灯笼，以及一尊安放在华丽基座上的威严白色雕像，所有这一切都沐浴在温暖的环境光中。然后视角向右移动，引导观众沿着一条有纹理石墙的柱廊走道，走向饰有金色门钉的庄严红门，这既是焦点，也是通往外部世界的可能门槛。继续深入，相机穿过一条更安静的侧廊，灯笼照亮的窗户在破碎的石板上投下柔和的光线，增强了岁月静好的感觉。一次刻意的转身让观众再次欣赏中央雕像，其存在感因地面上光影的戏剧性对比而更加突出。最后，相机沿着原路返回，回到宏伟的大门，再回到最初的屏风，完成了一次环形游览，邀请人们思考建筑的对称性、细节和宁静的氛围------所有这些都通过平滑、从容的动作捕捉，强调了沉浸感和视觉发现。
场景静态字幕（动作解耦）： 此类字幕只关注静态环境和美学细节，故意省略相机运动或角色动作的描述。这种设计对于在世界模型中将运动控制与场景生成解耦至关重要。
- 示例： 视频呈现了一个第一人称视角，有人在漫步穿过一个宁静的、装饰华丽的庭院或寺庙建筑群，具有传统的东亚建筑元素。环境特色包括有纹理的石墙、彩绘精美的木制屏风、带有金色门钉的红色大门，以及基座上的中央雕像，所有这些都在柔和的环境光线下，在破碎的石板路上投下长长的阴影。氛围平静而静止，没有其他角色或移动物体，强调了环境的宁静之美和精湛工艺。
密集时间字幕： 此类字幕通过将视频分割成多个时间间隔并详细描述每个间隔内的事件，提供细粒度、时间对齐的描述，以支持时间对齐训练。

图 4. LingBot-World 训练流程概述。我们提出了一种多阶段进化策略，将基础视频生成器转变为交互式世界模拟器。预训练阶段建立强大的通用视频先验，以确保高保真开放域生成。中间训练阶段注入世界知识和动作可控性，使模型能够模拟具有一致交互逻辑的长期动态。后训练阶段调整架构以实现实时交互，采用因果注意力和少步蒸馏来实现低延迟和严格的因果关系。

3.1.2 第二阶段：中间训练 - 注入世界知识与长期动态

在中间阶段，我们将初始生成器提升为双向世界模型。在我们的通用公式 Eq. (1) 下，设置 t=0 符合双向范式，允许模型首先捕获全局时间依赖关系，而不受因果历史的限制。虽然预训练模型在高保真视频生成方面显示出巨大潜力，但它仅限于短片段且缺乏交互逻辑。因此，我们使用专门的数据引擎进一步训练 LingBot-World，以整合动作控制、时间一致性和特定领域规则。此阶段引入的关键改进如下：

长期一致性： 为了增强记忆能力，模型在扩展的视频序列上进行训练。通过观察长期上下文帧，LingBot-World 学会减轻视频生成过程中的"遗忘"问题，确保生成的视觉世界在几分钟的游戏过程中（而不仅仅是几秒钟）保持连贯。
动作可控性： 为了引入交互能力，我们通过自适应归一化 $77, 84$ 将用户定义的动作信号整合到模型中。在这些明确的动作输入条件下，LingBot-World 生成的视觉世界不再由随机噪声驱动，而是遵循用户指定的指令。
备注： 在此阶段，模型作为一个整体世界模拟器运行，能够根据动作条件生成高保真的未来轨迹，尽管它依赖于双向注意力，这对于实时展开计算量很大。

3.1.3 第三阶段：后训练 - 因果架构适配与少步蒸馏

最后阶段将我们的双向世界模型转变为一个能够实时交互生成的高效自回归系统。通过将 Eq. (1) 推广到 t≥0 并以过去上下文 x<t 为条件，我们的公式无缝转换到因果范式，实现了交互所需的逐步推理。虽然第二阶段模型能准确捕获世界动态，但由于全时序注意力和多步迭代去噪，标准的双向扩散模型在部署时计算量过大。我们通过以下方法解决这些限制：

因果架构适配： 我们将全时序注意力替换为分块因果注意力，结合了块内的局部双向依赖性和跨块的全局因果性。该模型从高噪声专家（第二阶段）初始化，并使用混合时间步协议进行训练，以弥合专家专长之间的差距。这通过 KV 缓存实现了高效的自回归生成，同时保持了时间连贯性。
少步蒸馏： 我们采用分布匹配蒸馏 (DMD)，并结合自展开训练和对抗优化 $39, 86, 87$ 。这种双重方法提炼出一个少步生成器，该生成器能够在长时间展开中保持动作条件下的动态和视觉保真度，而不会出现显著漂移。

图 5. LingBot-World 的流程。左侧部分展示了 LingBot-World 的视频生成流程。LingBot-World 使用图像或视频、噪声潜变量以及用户定义的动作信号作为输入，生成具有空间记忆、长期一致性和精确动作跟随能力的视频序列。右侧部分展示了 LingBot-World 中 DiT 块的架构。视频潜变量首先通过自注意力层，使 LingBot-World 能够学习时空连贯性，并进一步显现空间记忆能力。然后，动作信号通过 Plücker 编码器注入，输入动作被投影到 Plücker 嵌入中，并通过自适应归一化（将 Plücker 嵌入转换为缩放和偏移因子）来调制视频潜变量。最后，应用交叉注意力层，根据文本嵌入来条件化视频潜变量。

3.2 预训练

预训练阶段的目标是找到一个预训练模型，为后续阶段提供强大的视频先验，使 LingBot-World 能够生成多样化、连贯且高保真的视频。近期世界模型的进展 $6, 13, 26$ ，例如 Genie 3 $5$ ，已经证明了从强大的视频基础模型初始化交互式世界模型的有效性。这些视频基础模型 $25, 52, 60, 69, 76$ 可以提供强大的内部先验（即视觉真实感、物体恒常性和时间动态），从而显著加速交互式物理和可控视觉世界生成的学习。为此，我们采用 140 亿参数的 Wan2.2 图像到视频扩散模型 $77$ 作为我们的预训练模型，该模型特别擅长捕获复杂的时空一致性和生成高保真视频内容。

3.3 中间训练

在中间训练阶段，预训练的视频扩散模型被转变为一个双向世界模型，以生成连贯且可交互的视觉世界。虽然预训练模型在高保真视频合成方面表现出色，但它本质上仅限于短视频片段，并且缺乏与用户定义动作信号交互的能力。为了解决这些局限性，我们利用所提出的数据引擎（第 2 节）为中间训练阶段生成动作条件化的、时间上扩展的视频序列。此阶段由三个主要部分组成。首先，训练一个基础世界模型，以获得长期时间一致性和涌现的空间记忆，确保生成世界的稳定性（第 3.3.1 节）。其次，我们微调这个基础世界模型，通过将用户定义的动作信号注入 DiT 块来支持动作条件化生成，从而实现可控动态（第 3.3.2 节）。第三，由于训练基础世界模型计算密集，我们实现了一个并行基础设施，能够在将 GPU 内存消耗控制在实际范围内的同时实现高效训练（第 3.3.3 节）。通过这个中间训练阶段，LingBot-World 逐步学习长期时间一致性、空间记忆和精确的动作条件化动态，弥合了随机视频生成与交互式、可控世界建模之间的差距。

3.3.1 基础世界模型

如图 5 所示，LingBot-World 将图像或视频、噪声潜变量和用户定义的动作作为输入，生成可控的视觉世界，而不是随机视频合成。我们首先训练一个基础世界模型，该模型在给定任意初始状态（即单张图像或一段视频）的情况下，生成一个兼具长期视频一致性和空间记忆的视觉世界。训练策略如下：

混合专家 (MoE) 架构： 继 Wan2.2 图像到视频扩散模型 $77$ 证明了 MoE $51$ 架构的有效性之后，LingBot-World 继承了其 MoE 设计，以提高模型性能，同时保持推理成本几乎不变。由于不同的去噪阶段扮演着不同的角色，LingBot-World 采用了针对扩散过程定制的双专家设计：一个高噪声专家，在早期时间步激活，专注于建模全局结构和粗略布局；一个低噪声专家，在后期时间步激活，负责精修细粒度的空间和时间细节。每个专家包含大约 140 亿个参数，总模型大小为 280 亿参数，而在每个去噪时间步仅激活一个专家。这种设计使得推理时的计算量和 GPU 内存消耗与一个密集的 140 亿模型相当。
渐进式课程训练： 为了使 LingBot-World 能够实现长期视频一致性和空间记忆，我们采用了渐进式课程训练策略。在第一轮中，我们使用 5 秒的视频序列来训练基础世界模型并拓宽其内部生成域，因为预训练模型受限于狭窄的分布。然后，我们将训练时长从 5 秒逐步延长到 60 秒，使基础世界模型能够学习长期时间一致性并促进空间记忆的涌现。此外，我们根据视频时长的增加逐步调整流偏移。这种设计是基于观察到长视频生成需要更加强调高噪声时间步，而高噪声时间步负责建模全局场景结构。增加高噪声时间步的比例有助于在长时间范围内稳定场景级结构，从而减少漂移并提高长视频生成的性能。
多任务训练： 为了赋予 LingBot-World 从任意初始条件预测未来世界状态的能力，我们采用了多任务训练范式，同时包含图像到视频和视频到视频（即视频续写）目标。这些任务对应于不同形式的初始状态：图像到视频任务使基础世界模型能够从单个静态帧推断未来动态，而视频到视频任务则通过从历史序列预测未来帧来促进超出观测运动的推断。通过联合优化这些互补任务，模型学习到了一个统一的世界转换函数，该函数能够泛化到不同的初始条件，从而允许从时间上的任意起点稳健地预测未来世界状态。

3.3.2 动作条件化世界模型

在训练基础世界模型以建立长期时间一致性和空间记忆之后，我们开始微调模型以支持交互控制。此阶段通过注入用户定义的动作信号，将视频生成器转变为响应式世界模拟器。

动作表示： 为了实现对所生成环境的精确控制，我们采用了一种混合动作表示策略，结合了连续相机旋转和离散键盘输入（例如 W, A, S, D）。具体来说，我们使用 Plücker 嵌入表示相机旋转，这为连续 3D 变换提供了几何表示。同时，离散交互被编码为多热向量。这两种模态通过沿通道维度连接进行融合。这种混合表示确保了模型能够处理平滑的视角变化和明确的逻辑状态转换。
动作注入机制： 为了将这些动作信号整合到扩散过程中而不破坏预训练的视觉先验，我们利用了一种自适应层归一化 (AdaLN) 机制 $84$ 。融合后的动作嵌入被投影并注入到 DiT 块中。这使得动作信号能够动态地调制归一化特征，引导去噪过程生成与指定动作一致的视频帧。
微调范式： 我们采用了一种参数高效的微调策略，以保持基础模型的生成质量。具体来说，我们冻结预训练基础世界模型的主要 DiT 块，只微调新添加的动作适配器层（包括动作嵌入投影和 AdaLN 参数）。这种设计基于两个关键动机：(1) 它有效地将固有的视频生成能力与动作控制能力解耦。(2) 由于高质量的动作标记数据通常很稀少或是合成的（通过第 2.1.2 节提到的数据引擎生成），完全微调密集模型存在灾难性遗忘或基础视觉质量下降的风险。冻结主干网络确保了模型保留其高保真视频

3.3.3 并行基础设施

训练一个 280 亿参数的基础世界模型，处理一分钟的视频序列，对 GPU 内存的要求极高。这是由于模型规模大、令牌长度长以及诸如梯度计算、优化器状态管理和激活检查点等内存密集型操作共同造成的。为了克服这些挑战，我们实现了一个并行基础设施，能够高效地将计算和内存分布到多个 GPU 上。

完全分片数据并行 2 (FSDP2)： 为了支持 280 亿参数的 LingBot-World 的高效训练，我们采用了 FSDP2 $91$ 来实现可扩展的数据并行。FSDP2 采用完全分片方案，每个 GPU 只保存模型参数、梯度和优化器状态的一小部分，从而能够训练那些在单个 GPU 内存限制下无法训练的大规模模型。此外，通过重叠通信与计算以及利用其他系统级优化，FSDP2 实现了高训练效率，并且随着模型大小和 GPU 数量的增加，吞吐量接近线性扩展。
上下文并行 (CP)： 为了缓解长令牌长度带来的内存瓶颈，我们采用 Ulysses $32$ 作为上下文并行策略。Ulysses 通过沿时间（序列）维度划分输入张量并将这些分片分布到多个 GPU 上，引入了序列并行。在注意力计算期间，一种高效的全收集集体通信模式重新分发必要的激活，使得每个设备可以局部地计算其序列分片上的注意力。通过这种方式对序列维度进行分片，每 GPU 用于激活和注意力相关中间结果的内存占用显著减少，使 LingBot-World 能够并行处理长序列。

3.4 后训练

在后训练阶段，我们将双向世界模型转变为一个能够实时交互生成的高效自回归模型。这种转变解决了在实时应用中部署双向注意力的计算限制，同时保留了中间训练期间学习到的丰富动态。我们的后训练方法包括两个关键阶段。首先，我们通过扩散强制机制将双向架构适配为因果框架（第 3.4.1 节） $12$ 。其次，我们采用结合了长时程训练的少步蒸馏来将教师模型的能力转移到学生模型（第 3.4.2 节） $30, 39$ 。在整个过程中，我们优先保留两项关键能力：保持精确的动作条件化动态建模，并确保在长时间序列中维持视觉保真度而无累积漂移。

3.4.1 因果架构适配

模型初始化： 回想一下，我们的中间训练模型是一个混合专家图像到视频扩散模型，包含两个顺序专家：一个高噪声专家和一个低噪声专家。每个专家专注于去噪扩散过程的特定时间步范围。为了简化和高效的训练与推理，我们使用高噪声专家初始化我们的因果学生模型，因为它具有卓越的动态建模能力。从我们中间训练模型进行的初始化，通过渐进式课程学习提供了固有的优势。该模型已经具备了关注可变长度令牌序列的能力，这使得我们的因果适配更加稳定，并且能够泛化到不同长度的展开。实验评估证实，与低噪声专家相比，从高噪声专家进行适配产生了更优的动作条件化动态建模。
架构适配： 我们遵循最近的自回归视频蒸馏框架 $14, 60$ ，将双向教师模型适配为因果世界模型。具体来说，我们将全双向时序注意力替换为分块因果注意力，它结合了局部双向注意力和全局因果约束，以平衡建模能力与自回归需求 $30, 88$ 。在每个时间块内，令牌双向地相互关注，以捕获短期时间依赖关系并保持相邻帧间的局部一致性。跨块时，注意力受到因果限制，使得当前块中的令牌只能关注同一块或前面块中的令牌，从而消除了对未来帧的依赖。这种混合注意力模式使得无限制的自回归生成成为可能，同时保持了长程时间连贯性。在推理期间，因果结构通过键值缓存促进了高效的流式生成。

图 6. (a) 因果生成器适配。为了实现自回归流式生成，我们使用分块因果注意力适配了高噪声专家。这种机制在跨块强制执行全局因果关系，同时保持局部双向一致性，以实现高效的动作条件化展开。(b) 判别器架构。对于长时程训练，我们向假分数网络特征附加了一个 GAN 分类头 $D(\cdot)$。该判别器使用交叉注意力来区分真实序列和合成序列，以减轻分布匹配蒸馏过程中的累积漂移。

3.4.2 结合长时程训练的少步蒸馏

虽然我们的因果适配模型能够根据用户输入动作生成视觉上合理的视频帧，但超出训练时长后会出现显著的累积漂移，这是由于训练和推理条件之间的分布不匹配所致。为了应对这一根本性挑战，我们采用了一个全面的蒸馏框架，该框架结合了自强制训练和先进的分布匹配技术。

自展开扩展时程训练： 遵循自强制范式 $30, 40, 43, 85$ ，我们在学生模型自身生成的序列上对其进行训练，以弥合训练-测试差距。在训练期间，模型以其先前生成的帧（通过高效的滚动键值缓存存储）为条件，迫使其从其自身的生成伪影和累积错误中发展出鲁棒的恢复机制。这种方法确保模型学会处理自回归生成过程中自然发生的分布偏移。为了管理长时程展开带来的巨大计算开销，我们采用了随机梯度截断策略。具体来说，我们仅通过最近的 K 个生成步骤反向传播梯度，同时保持完整的上下文用于前向计算，从而平衡训练效率与长期依赖学习。
分布匹配与对抗优化： 我们应用分布匹配蒸馏 (DMD) 结合对抗优化 $86, 87$ 来提高样本质量和时间一致性。我们使用中间训练的MoE 教师模型作为我们的真实分数函数，并使用相同的 MoE 教师初始化假分数模型以进行全程分数匹配。对于动作条件化生成，关于学生参数 θ 的梯度为：

然而，在 DMD 训练之后，蒸馏生成器与教师模型之间仍然存在性能差距；例如，学生生成的视频通常表现出质量下降。几个因素可能导致这种差距。首先，学生是从高噪声模型初始化的，因此没有继承低噪声模型（即负责精细细节和高频合成的组件）所学的知识。其次，我们将注意力掩码替换为因果变体，并在推理时仅使用少量采样步骤，这进一步限制了生成质量。更重要的是，在 DMD 训练下，生成器和教师都没有直接受到真实数据的监督，这可能导致学生继承教师的偏差和错误。为了缓解这些问题，我们引入了一个基于对抗训练的附加目标 $21$ 。具体来说，生成器旨在欺骗判别器，而判别器则学习区分真实视频和合成视频。通过整合来自真实数据的监督，蒸馏生成器不再严格受限于教师的局限，这有可能提高样本的真实感和感知质量。

具体来说，我们将一个分类头 D(⋅) 附加到 DMD 中的假分数网络。该头的架构遵循 APT $39$ 中的设计。对抗性目标为：

4 评估

4.1 定性分析

4.1.1 多样化结果

我们通过分析中间训练模型 LingBot-World-Base 和后训练模型 LingBot-World-Fast 在一组多样化场景中的定性结果，来评估我们框架的泛化能力。

图 7. LingBot-World-Base 的定性结果。

图 8. LingBot-World-Base 的定性结果。

图 9. LingBot-World-Base 的定性结果。

图 10. LingBot-World-Fast 的定性结果。

图 11. LingBot-World-Fast 的定性结果。

图 12. 涌现的记忆能力。我们的模型展现出维持长期一致性和推理未观察状态的涌现能力。第 1-3 行：静态地标，如巨石阵，即使在离开视野 60 秒后仍能保持其结构完整性。第 4-5 行：模型甚至对未观察区域也能模拟连贯的世界动态：当相机向前移动后回到正面视角时，远处的桥显得更近（第 4 行）；汽车离开视野后继续在路上行驶（第 5 行）。

在此基础上，我们进一步分析了我们的实时变体 LingBot-World-Fast，它在单个 GPU 节点上处理 480p 视频时实现了 16 帧/秒的吞吐量。尽管加速过程在理论上的上限质量方面引入了必要的权衡，但视觉退化在感知上是边际的。如图 10 和 11 所示，LingBot-World-Fast 成功保留了教师模型的结构完整性和物理逻辑。它能适应动态交互而不会表现出明显的视觉伪影或模式崩溃，表明其在推理速度和生成质量之间达到了最佳平衡。

4.1.2 涌现的记忆能力

LingBot-World 的一个关键特性是其涌现出的维持全局一致性的能力，而无需依赖诸如 3D 高斯泼溅 $34$ 等显式 3D 表示。如图 12 的前三行所示，模型能够保持地标（包括雕像和巨石阵）的结构完整性，即使它们已经离开视野长达 60 秒。这与先前的观察 $5, 46$ 一致，即视频模型对物体重新出现具有隐式记忆。至关重要的是，与通常局限于静态场景重建的显式 3D 方法不同，我们基于视频的方法更具动态性。它自然地模拟复杂的非刚性动态，如流水或移动的行人，这些对于传统的静态 3D 表示来说极其难以捕获。

除了仅仅渲染可见动态之外，模型甚至涌现出推理未观察状态演变的能力。例如，如图 12 的第 4 行所示，当相机向前移动后回到正面视角时，远处的桥被渲染得明显更近，准确地反映了随时间的前向运动。同样，在第 5 行中，一辆车离开画面，在未被观察时继续其轨迹，并在一个物理上合理的位置重新出现，而不是消失或冻结。这些行为表明模型模拟了现实世界的潜在时空一致性，而不仅仅是记忆像素。

图 13. 超长视频生成。我们展示了模型生成持续时间长达 10 分钟的连贯视频序列的能力。

4.1.3 探索生成边界

如图 13 所示，我们推动了视频合成中时间连贯性的边界。我们的模型能够为超长持续时间（长达十分钟）维持稳定、高保真的环境，而视觉质量或叙事一致性不会显著下降。这一结果突显了我们的方法在处理长期时间依赖关系方面的鲁棒性。

4.2 定量分析

对于定量评估，考虑到世界模型的评估协议仍处于起步阶段，并且所提出的方法基于视频生成模型，我们使用 VBench $31$ 对一个包含 100 个生成视频（每个时长超过 30 秒）的精选测试集进行了全面分析。我们将我们的 LingBot-World 与两个最先进的视频世界模型进行了比较：Yume-1.5 $45$ 和 HY-World 1.5 $68$ 。如表 2 所示，我们的方法在大多数评估指标上均表现出优越性能。具体来说，在视觉保真度方面，我们的模型在成像质量和美学质量上都取得了最高分，超过了两个基线。这表明我们的模型生成的场景具有更高的真实感和更好的视觉吸引力，这对于交互式世界漫游中的沉浸式用户体验至关重要。

对于一个交互式世界模型来说至关重要的是，我们的模型在动态程度方面表现出显著优势，取得了 0.8857 分，而 Yume-1.5 为 0.7612 分，HY-World 1.5 为 0.7217 分。这一显著差距表明，我们的模型能够根据用户控制生成更丰富的场景转换和更复杂的运动，避免了视频生成中常见的静态模式。此外，尽管具有这种高动态程度，我们的方法仍保持了最佳的整体一致性，证实了我们的模型在长期生成过程中对输入提示保持了强大的语义保真度。

在时间特性方面，我们的模型在运动平滑度和时间闪烁方面取得了有竞争力的结果，与领先的基线 HY-World 1.5 相当。这确保了生成的视频流保持流畅且没有突兀的伪影。总之，定量结果验证了我们的模型不仅提供了更具动态性和交互性的环境，而且与现有方法相比，保持了卓越的视觉质量和一致性。

表 2. 定量比较。我们将我们的模型与 VBench $31$ 上最新的最先进方法进行了比较。我们的模型在卓越的运动动态方面表现出色，同时在视觉质量和时间平滑度上与领先的竞争对手持平。

5 应用

我们的自回归框架通过以自然语言提示和离散动作为条件来合成视频，从而将视频生成转变为交互式模拟。这种多模态的可控性使模型能够作为下游任务的通用平台。在本节中，我们将演示由我们的设计实现的三个关键应用：(1) 可提示的世界事件，用户通过文本语义地控制全局和局部动态；(2) 行动智能体，利用模拟器学习自主探索策略；(3) 3D 重建，验证我们生成环境的新兴几何一致性和长期空间记忆。

图 14. 可提示的世界事件。给定一个单一的初始上下文（左），我们的模型根据文本提示生成多样化的未来轨迹。我们在不同领域展示了这一能力：幻想场景（上）和现实场景（下）。结果突显了我们的模型处理全局环境变化（例如，"冬天"，"像素艺术"）和精确局部干预（例如，"烟花"，"鱼"）的能力，同时保持物理和时间连贯性。

图 15. 行动智能体的应用。给定一个初始图像，行动智能体预测一系列动作来模拟环境中的探索。预测的动作被转换为相机轨迹，进而驱动后续的世界生成。

5.1 可提示的世界事件

我们不将用户限制在静态环境中的被动导航，而是倡导一种反应式的世界模型，其中模拟根据交互而不同地展开。为此，我们展示了可提示的世界事件 $5, 79$ ，这是一种允许用户通过自然语言主动引导未来轨迹的机制。如图 14 所示，这种能力将生成过程从单一的确定性路径转变为多样可能性的树。给定一个单一的初始上下文，我们的模型可以根据语义提示分支成明显不同的未来。这种可控性开启了两个关键能力。

5.1.1 全局事件

全局事件指的是对模拟环境的整体修改，包括天气条件、光照和风格化渲染。利用我们基础模型的文本条件特性和 Ditto $3$ 的变体，我们可以通过在推理期间调整提示来操纵全局状态。如图 14 所示，加入环境描述符（例如，"冬天"或"夜晚"）可以将场景无缝地转换到目标领域。模型能够一致地渲染出连贯的物理效果，例如城堡结冰或夜晚光照变化，同时保持与先前历史的时间一致性。此外，模型支持风格化领域转换。通过提示艺术风格（例如，"像素艺术"或"蒸汽朋克"），我们可以在保持底层几何和运动动态的同时转换视觉渲染。

5.1.2 局部事件

局部事件涉及将特定对象或动态智能体精确注入场景。如图 14 所示，用户可以引入有针对性的元素，例如在城堡上方触发"烟花"或在喷泉处生成"鸟"和"鱼"。我们的模型能够将注入的元素无缝地整合到不断发展的场景中，确保物理一致的行为和时间稳定的融合。这种细粒度控制对于具身 AI 和自动驾驶至关重要。它能够构建多样化、交互式的训练环境，其中智能体必须推理因果关系和动态变化。通过定义特定事件，我们可以严格评估智能体感知、预测和响应细粒度物理交互的能力，弥合静态数据集学习与现实世界适应性之间的差距。

图 16. 由 LingBot-World 生成视频重建的 3D 结果。来自室内、科幻和室外场景的重建点云展示了跨不同环境的高空间一致性和几何保真度。

5.2 行动智能体

除了学习动作条件化的世界模型，我们还利用相同的数据训练一个行动智能体，该智能体能够从单一的视觉观察中推断运动动态并激励环境探索，从而更有效地利用数据集。

5.3 3D 重建

受益于高质量、大规模、长时程的训练，LingBot-World 展现出 3D 空间一致性和长期空间记忆的涌现能力。如图 16 所示，通过利用大规模 3D 重建基础模型 $38, 81$ ，我们可以进一步将生成的视频序列转换为高质量的场景点云。这些点云展示了跨帧的强空间连贯性，为下游具身智能训练提供了有前景的多样化数据源。这种涌现的 3D 一致性有效地缓解了传统视频生成模型中常见的跨视图不一致性问题，从而实现了卓越的场景保真度和几何精度。

6 结论与讨论

6.1 总结：新的开源前沿

在本报告中，我们提出了一个全面的框架，为世界模型建立了新的开源前沿，有效地弥合了视频生成与可操作模拟之间的差距。我们的贡献涵盖了整个流程，从一个具有可扩展、自动化收集系统的强大数据引擎开始，确保高质量和多样化的训练数据。在建模方面，我们开发了一个针对精确动作控制优化的因果 Transformer 架构，并采用了实时蒸馏以实现高效推理。这些进步最终体现在多样化的应用上，展示了模型在执行智能体动作、执行一致的世界编辑和支持 3D 环境重建方面的能力。

6.2 局限性

尽管取得了这些进展，但在实现完全沉浸式和持久的虚拟世界方面仍存在若干挑战。

记忆稳定性： 目前，模型的记忆是一种从上下文窗口中涌现的能力，而不是一个显式的存储模块。因此，它缺乏稳定性，导致长期模拟中出现不一致。
计算成本： 推理成本仍然很高。运行模型需要企业级 GPU，使其无法在消费级硬件上使用。
受限的动作空间： 可控动作的范围目前有限。该模型主要处理导航和基本移动，缺乏多样化的复杂交互能力。

交互精度： 细粒度控制仍然困难。具体来说，与特定目标对象交互（例如，在杂乱的桌子上捡起一个特定的杯子）由于缺乏精确的对象级基础而具有挑战性。
生成长度与漂移： 连贯的生成长度不足以支持扩展的游戏过程。随着视频长度的增加，场景会遭受"漂移"问题，环境逐渐失去其原始结构。
单智能体模拟： 当前的框架仅支持单智能体视角，尚未考虑多智能体交互。

6.3 后续步骤

展望未来，我们旨在通过一个有针对性的路线图来解决这些局限性。我们的主要目标是显著扩展动作空间并增强物理引擎，以允许与环境进行更多样化和真实的交互。为了解决长期模拟中固有的稳定性问题，我们计划设计一个更好的、显式的记忆模块，而不是仅仅依赖涌现能力。此外，我们将专注于解决漂移问题以实现更长的视频生成，为无限时长的游戏和更鲁棒的模拟铺平道路。