世界模型：架构、方法、推理与应用的综述（上）

26年6月来自Augusta大学、U Georgia、NJIT、哈佛医学院、德州Arlington、James Madison大学、Lehigh 大学、悉尼大学、纽约大学、加州希望之城国家医疗中心和亚利桑那州Mayo诊所的论文"World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications"。

世界模型，即学习环境结构及动力学的内部模拟器，已成为追求通用人工智能的核心范式，能够让智体在所学表示中进行预测、规划和推理。尽管在强化学习、机器人、自动驾驶和视频生成等领域取得了快速进展，该领域仍缺乏一个能够整合其多样化架构选择、训练方法、推理机制和应用场景的统一框架。本文通过引入一个全面的多轴分类法来填补这一空白，该分类法沿四个互补维度组织：(i) 架构，涵盖表示格式、动力学公式、输入模态、学习范式和下游应用；(ii) 方法论家族，包括状态空间与循环方法、基于Transformer的模型、基于扩散的生成器、物理信息网络以及语言增强的多模态系统；(iii) 推理策略，涵盖基于想象力的规划、潜策略学习、反事实推理和不确定性下的规划；(iv) 应用领域，涵盖机器人、自动驾驶、视频预测、多模态智体、强化学习、科学建模、医学成像、教育测量以及商业与金融。追溯该领域从早期认知科学基础到里程碑系统（如PlaNet、Dreamer、MuZero、Sora、Cosmos和Genie）的发展历程，本文考察这些维度如何相互作用，并强调思维链（CoT）推理与世界模型想象力近期融合的趋势。本文跨这些轴回顾评估协议和基准，识别持续存在的挑战------包括复合预测误差、模拟-到-现实迁移和碎片化评估实践------并概述朝向统一多模态世界模型、基础规模交互式模拟器以及在安全关键领域安全部署的未来方向。

引言。

对通用人工智能的追求长期以来激励着研究者开发智能系统，这些系统不仅能够从多模态数据中识别有意义的模式，还能获得对其运行环境的一致且因果性的理解。这一抱负的核心是世界模型的概念------一个捕获环境动力学并支持正向和反事实推演以进行感知、预测和决策的内部模拟器。这一思想的智力基础远远超出了当代机器学习。在认知科学中，长期以来人们认识到，人类通过将外部世界抽象为简化元素和关系结构来解读外部世界。这一观点在Johnson-Laird的心理模型理论中得到阐述，并与人工智能领域的早期发展产生共鸣，例如Minsky在1970年代提出的框架表示。简而言之，这些视角凸显了对构建能够推理复杂环境的内部表示的长期跨学科兴趣。

虽然这些早期框架主要是符号化的，但深度学习的出现为将世界模型概念操作化开辟了新时代。在强化学习中，Ha&Schmidhuber通过展示生成神经网络能够以无监督方式学习环境的紧凑时空表示，重新激发了这一思想。值得注意的是，他们的工作表明，智体甚至可以在完全由这些学习表示派生出的内部生成模拟中进行训练。更近期，LeCun将世界模型确定为自主智能的核心架构组件，提出世界模型应推断关于世界当前状态的缺失信息，并根据想象的行动序列预测可能的未来状态。

自这些开创性贡献以来，该领域在范围和雄心方面迅速扩展。在基于模型的强化学习中，Dreamer系列证明智体可以完全通过潜想象来学习复杂行为，使用统一的算法框架从简单的控制任务扩展到多样化的领域。与此同时，DeepMind的MuZero在没有获取显式环境规则的情况下，通过学习仅预测规划相关数量的隐模型，在多个具有挑战性的领域实现了超人类性能。

在基于模型的强化学习之外，OpenAI的Sora引入大规模视频生成作为世界模拟的一种形式，引发关于此类模型是否构成真正世界模型的辩论。来自Meta、DeepMind和NVIDIA的基础模型方法进一步证明大规模自监督预训练可以产生可操作的、分别用于机器人规划、交互式环境生成和物理AI的世界模拟器。这些努力与LeCun的更广泛愿景一致，即一个以可配置预测世界模型为中心的模块化认知架构，通过他提出的联合嵌入预测架构（JEPA）训练，为纯粹生成方法提供了一个理论上有根据的替代方案。总的来说，这些发展已将世界模型从一个基于模型强化学习的利基话题转变为追求通用人工智能的核心支柱。

在这个不断扩展的领域中，一个特别有前景的发展是思维链推理与世界模型的整合。传统的思维链将推理表示为显式的自然语言token序列，这个过程可能在计算上昂贵，且受限于离散文本表示的相对较低信息密度。最近的研究开始将这个推理过程转移到潜空间，其中世界模型为多步深思提供底层基质。例如，Coconut引入连续思维表示，直接在潜空间实现广度优先推理。类似地，LCDrive通过将动作提议token与世界模型潜预测交错在一起，整合思维链推理与行动规划，允许智体在提交到轨迹之前模拟反事实未来。基于此方向，FutureX提出一种自动思考机制，仅在场景复杂性需要审慎推理时才动态激活潜世界模型。总的来说，这些方法表明，世界模型可能不仅作为预测模拟器，而且作为推理引擎本身发挥作用------有可能用基于接地、时空的想象链取代语言思维链。

值得注意的是，世界模型日益增长的重要性也源于对基于Transformer架构构建的大语言模型根本局限性的日益认识。尽管像GPT-4和推理增强系统如o1这样的模型在语言理解和代码生成任务中取得了显著成功，但这些系统主要运行在文本token的离散且相对低维的空间中。因此，它们缺乏对连续且高维物理世界的接地理解。与此同时，大语言模型通常缺乏持久的世界状态表示，因果推理能力有限，并且难以进行长时域规划------而这些能力是生物体通常具备的。这一差距反映Moravec悖论：尽管诸如语言处理和象棋对弈之类的高级认知任务对机器而言似乎可行，但经过数十亿年生物进化锤炼的感觉运动能力却仍然难以复制。

相比之下，世界模型旨在通过学习预测物理或模拟环境中行动的结果来解决这些局限性，从而构建目标动态和时间演化的内部表示。通过使智体能够模拟可能的未来并评估替代行动序列，世界模型为在复杂环境中进行规划、推理和自适应决策提供基础。在这一方向上日益增长的机构投资------例如先进机器智能的建立、DeepMind对Genie模型家族以及NVIDIA Cosmos平台的持续开发------标志着一种新兴共识：人工智能的下一个前沿在于构建能够建模并与世界本身交互的系统。

然而，随着研究活动加速，世界模型吸引来自日益多样化社区的关注，一个根本问题依然存在：到底什么构成一个世界模型？在基于模型的强化学习中，该概念通常狭义地定义为一个学习的转移函数ˆT(s_t+1 | s_t, a_t)与奖励预测器ˆR(r_t | s_t, a_t)的耦合。然而，在更广泛的人工智能文献中，世界模型越来越多地被视作能够支持反事实推理、因果推断和分层规划的通用模拟器。这种观点的多样性导致碎片化的研究格局，从事潜动力学模型、生成式视频预测、以目标为中心的表示和语言接地规划的不同社区往往相对孤立地开发他们的方法。

重要的是，各种近期综述已开始组织这个快速发展的领域。例如，Ding从理解与预测的角度审视世界模型，而Li则提出针对具身人工智能的三轴分类法。额外的域特定综述探索在自动驾驶、机器人操作和3D/4D场景建模中的应用。尽管如此，现有的综述通常关注特定的方法论视角或应用领域，并未同时在一个统一框架内解决架构范式、方法论家族、推理机制和应用情境的全部光谱。世界模型正在开辟未充分探索的领域，包括医学成像和教育测量------这进一步凸显对一个全面、跨学科综述的需求。

如图1以三个层次概述这一格局。顶部：概念分类法将世界模型划分为两个互补视角------外部世界的隐表示，涵盖决策制定和世界知识学习；物理世界的未来预测，涵盖视频生成和具身环境。中部：里程碑贡献的历史时间线，从Minsky的框架系统理论，经过Ha&Schmidhuber的神经世界模型、LeCun的JEPA、大语言模型中的世界知识，到最近的包括Sora和UniSim在内的大规模模拟器。底部：代表性应用域部署------DayDreamer用于机器人，Smallville用于社会模拟，Vista用于自动驾驶------展示世界模型现在支持的部署环境的广度。此外，本文还进一步审视评估协议和基准，识别了当前方法面临的关键挑战，并概述未来研究的有希望方向。

世界模型的背景与概念基础。

世界模型是先进的智能模型，它使智体能够形成其环境的紧凑表示，并预测该环境如何随时间演变。在人工智能中，现代观念与基于模型的强化学习和生成式潜动力学建模密切相关，其中智能体不仅学习如何行动，还学习世界如何响应行动而变化。

从概念上讲，世界模型植根于更广泛的预测智能观。智能系统并非仅对当前输入做出反应，而是受益于预测未来状态、估计行动的后果以及利用内部模拟来指导行为。这一思想与认知科学、神经科学和强化学习中的早期传统，包括预测处理、预测编码和预测表示，有着紧密联系。

1 定义与基本概念

在人工智能中，世界模型是一个内部的预测模型，它捕捉环境如何随时间演变，以及这种演变如何依赖于智体的行动。Schmidhuber早期的一个公式描述一个构建模型的控制系统，其中控制器配备一个额外的模块，即世界模型，用于从先前的输入-行动对中预测未来的输入。在当代机器学习中，这个术语已有所扩展，同时保留其核心思想：世界模型是环境动力学的学习表示，支持预测、模拟和决策。Ha&Schmidhuber的神经世界模型框架通过证明智体可以学习环境的压缩时空表示，然后使用它们来支持下游控制，使这一公式在现代深度学习中特别有影响力。

世界模型的目标不仅仅是为了重构观测，而是学习使未来结果可预测的状态表示。在简单情况下，这可能直接涉及预测下一个观测。在更现实的场景中，尤其是在部分可观测性下，模型必须维护一个潜状态，该状态充分总结过去的观测和行动，以预测未来的观测、奖励和其他与任务相关的信号。这一视角有助于解释为何后来的工作从原始观测预测转向潜动力学建模。例如，PlaNet在紧凑的潜空间中从图像学习环境动力学，并明确结合确定性和随机性转移组件，反映有用世界模型必须跟踪持久结构和多个可能未来不确定性的洞见。Dreamer将这一工作线扩展，不仅将学习的潜动力学视为预测模型，也将其作为通过想象推演进行行为学习的基质。

大多数世界模型因此包含几个反复出现的组件。首先，它们包含一个感知或表示模块，将高维感官输入压缩成一个易处理的状态表示，例如潜向量或token序列。其次，它们包含一个以行动为条件的动力学模型，该模型预测此潜状态如何随时间演变。第三，许多系统集成任务级头部，如奖励或持续预测器，因为控制不仅需要估计世界看起来会是什么样，还需要估计想象的轨迹是否可取或终结。Ha&Schmidhuber使用变分自编码器进行视觉压缩和使用循环动力学模型进行时间预测，实例化这种分解。PlaNet和Dreamer将相同的蓝图精炼成适用于规划和策略优化的潜状态空间模型，而Genie则将这一思想扩展为基于时空视频token化器、自回归动力学模型和学习潜行动接口构建的生成式交互环境。

从功能角度看，世界模型的核心承诺在于想象力。一旦模型可以模拟候选行动下可能的未来轨迹，智体就可以使用这些想象轨迹来评估计划、改进策略，或在所学环境而非真实环境中部分或完全地训练。这就是为什么世界模型与基于模型的强化学习联系如此紧密。Ha&Schmidhuber证明策略可以在模型生成的环境内训练，然后转移回实际任务。Dreamer通过纯粹在潜想象中学习行为，在紧凑的潜空间中通过想象轨迹传播价值梯度，推进了这一思想。Genie通过从无标签互联网视频中引入可行动控制的虚拟世界，将相同的概念扩展到狭窄任务模拟器之外，作者将其描述为"基础世界模型"。在这些变型中，统一的原则是模型充当反事实交互的内部沙盒。

定义世界模型时，有几个概念区分是有用的。一个是观察空间模型与潜空间模型之间的区分。观察空间模型试图直接预测未来像素、帧或传感器读数，而潜空间模型则预测压缩的隐状态，后者通常在计算上更高效，对规划更有用。第二个区分是确定性世界模型与随机性世界模型。确定性模型通常更简单，但它们可能会模糊真正不确定的未来；随机性模型更适合捕捉模糊性和多模态性。第三个区分涉及特定任务与通用世界模型。早期系统通常为规划或控制而在单一环境中训练，而更新的系统如Genie则寻求从大规模、弱监督数据中学习广泛可重用的、可行动控制的生成式环境。这些区分很重要，因为它们塑造模型能表示什么、如何训练以及其预测如何被使用。

同时，世界模型并不等同于完美的模拟器或完整的现实本体。其价值取决于它是否捕捉环境中对预测和控制至关重要的方面。Ha&Schmidhuber明确指出，无监督视觉模型可能会复现视觉上细节丰富但与任务无关的结构，同时未能捕捉对成功行为至关重要的特征。PlaNet同样将学习的动力学视为一个长期挑战，因为误差在多步预测范围内会累积，尤其是在基于图像域中。因此，世界模型的实践质量通常不仅通过重构保真度来判断，还要看它是否产生稳定的想象推演、支持有用的规划、提高样本效率，并泛化到训练期间观察到的确切轨迹之外。在此意义上，世界模型的核心思想是预测性抽象：模型应将经验压缩成一种形式，这种形式足够简单以便模拟，同时足够丰富以支持有效行动。

三个属性将世界模型与通用预测模型区分开来：

行动条件化：模型预测环境如何响应特定行动而演变，从而启用反事实推理。

多步推演：模型可以自回归地应用以生成任意长度的轨迹，支持规划和模拟。

对决策的有用性：模型的预测被用于下游------策略优化、规划、数据增强或安全验证------而不是作为其自身目的。

2 世界模型的关键组件

大多数现代世界模型在部分可观测马尔可夫决策过程（POMDP）的框架内运行，涉及状态空间、行动空间、转移函数、奖励函数、观测空间、发射函数和折扣因子。世界模型近似转移函数，并可选择性地近似奖励函数和发射函数。世界模型的关键组件，可以总结为以下四个功能模块：

编码器。编码器将原始的高维观测（图像、点云、传感器读数）映射到一个紧凑的潜表示：z_t = q_ϕ(z_t | o_≤t, a_<t)。值得注意的是，这个压缩步骤至关重要，因为原始观测往往维度太高，无法支持易处理的多步预测。编码器可以是确定性的，例如卷积神经网络，也可以是随机性的，例如变分自编码器中的后验网络。例如，Ha&Schmidhuber使用基于变分自编码器的编码器将64×64图像帧压缩成32维潜向量。类似地，Dreamer模型家族采用一个以观测历史为条件的后验编码器，来推断潜状态的确定性和随机性组成部分。

动力学模型。动力学模型根据当前状态和行动预测下一个潜状态：ẑ_t+1 = p_θ(ẑ_t+1 | z_t, a_t)。重要的是，动力学模型构成世界模型的核心。在基于RNN的架构中，它通常被实现为循环状态空间模型，该模型将潜状态分解为一个保持长期时间依赖性的确定性循环组件h_t，以及一个捕捉环境不确定性的随机性组件z_t。在基于Transformer的架构中，动力学模型通常被公式化为一个自回归Transformer，它预测离散潜序列中的后续tokens。在基于扩散的方法中，未来状态通过迭代去噪过程生成。此外，在高层次上，当前世界模型可以被理解为一个由三个紧密耦合组件组成的系统：视觉模型、记忆模型和控制模型。总之，这些组件使智体能够感知其环境、保留和组织过去信息，并基于预测的未来结果选择行动。这种分解尤其有用，因为它阐明世界模型如何将原始感官输入转化为支持推理、规划和决策的结构化内部表示。

视觉模型负责感知和表示学习。其主要角色是将高维感官观测，如图像、视频帧或其他原始输入，转化为一个紧凑且信息丰富的潜表示。在许多现代世界模型中，该组件使用卷积神经网络、变分自编码器、视觉Transformer或分词器来实现，这些方法将观测压缩成潜向量或离散tokens。视觉模型的重要性在于其能够过滤掉不相关的感知细节，同时保留对下游预测和控制至关重要的特征。如果没有这种压缩，直接在原始观测空间中建模未来轨迹通常在计算上不可行且统计效率低下。

记忆模型是架构的时间和预测核心。其功能是维护过去经验的表示，并建模环境的潜状态如何随时间演变。该组件被称为"记忆"，因为它为系统提供记忆：它将当前观测与历史上下文整合，允许智体推断隐结构、跟踪时间依赖性并表示未来状态的不确定性。在循环世界模型中，记忆模型通常使用循环神经网络或循环状态空间模型实现，这些模型将确定性记忆状态与随机性潜变量相结合。在更近期的架构中，Transformer和基于扩散的序列模型也被用于捕获长范围时间依赖性和生成未来潜轨迹。记忆模型是允许世界模型超越静态感知、作为环境动力学的预测模拟器发挥作用的关键。

控制模型是决策制定组件。给定由视觉模型产生并经记忆模型更新的潜状态，控制模型确定应采取哪一行动以最大化期望奖励、实现特定目标或满足任务约束。在强化学习环境中，该组件可能采取策略网络、价值函数或评估由世界模型生成的想象未来推演的规划模块的形式。更广泛地说，控制模型将预测知识转化为有目的的行为。其有效性不仅取决于学习策略的质量，还取决于其他两个组件提供的感知和时间表示的保真度。

这三个模块并非独立；相反，它们作为一个集成系统运行。视觉模型将当前观测编码为潜状态，记忆模型根据先前的上下文更新此潜状态并预测未来状态，而控制模型则利用这些表示来评估替代方案并选择行动。它们的交互使世界模型的核心能力得以实现：在真实环境中行动之前想象可能的未来。在此意义上，视觉模型回答正在观察什么的问题，记忆模型解决世界如何随时间变化的问题，而控制模型则确定接下来应该做什么。

这种三方观点也为比较不同的世界模型架构提供一个有用的概念框架。一些系统通过强大的token化或表示学习强调更强的视觉编码，而其他系统则侧重于更富表现力的、用于长时域预测的记忆机制。还有一些系统将更多建模能力分配给控制组件，尤其是在需要复杂规划或策略优化的任务中。尽管存在这些差异，视觉-记忆-控制分解捕获许多基于世界模型的系统在强化学习、机器人、自主系统和科学应用中通用的结构逻辑。

奖励预测器。奖励预测器从当前潜状态估计标量奖励：r̂_t = p_ψ(r_t | z_t)。准确的奖励预测对于基于模型的强化学习至关重要，因为想象中的策略优化取决于预测回报的质量。MuZero证明一个世界模型，其动力学完全在一个学习的抽象空间中运行------预测奖励、价值和策略而从不重构观测------就足以在围棋、国际象棋、将棋和Atari游戏中达到超人类表现。

解码器。解码器从潜状态重构观测：ô_t = p_ξ(o_t | z_t)。解码器有两个作用：(1) 提供重构损失信号用于训练编码器和动力学模型，(2) 实现想象轨迹的可视化。然而，解码器在架构上并非必需。MuZero完全弃用了它，而基于JEPA的模型在表示空间而非像素空间中进行预测，从而规避像素级重构的计算负担和模糊性。

在这四个模块之外，一些世界模型还包含额外组件。持续预测器估计episode终止概率。折扣预测器建模时变折扣因子。DreamerV3使用symlog变换预测和分类价值表示来实现跨域通用性。

3 世界模型与无模型强化学习（Model-free RL）的根本区别

强化学习中的一个基本区别在于，智体是学习环境动力学的显式模型，还是直接从奖励驱动的交互中学习行为。这一分界线将基于世界模型的方法与无模型强化学习分开，并对规划、样本效率、迁移、不确定性处理和可解释性产生重要影响。

在最基础的层面，两种范式在学习什么上有所不同。世界模型方法学习预测结构------例如，在观测空间或潜状态空间中的转移、观测和奖励动力学------以便未来轨迹可以在内部被想象或评估。相比之下，无模型强化学习通常直接从交互数据中学习策略、价值函数或两者，而无需环境的显式预测模型。在此意义上，世界模型强调学习环境如何演变，而无模型方法则强调学习哪种行动能最大化回报。

这种差异自然引出第二个区别：规划与直接策略执行。学习的世界模型可以向前推进以支持在线规划或潜想象。PlaNet在潜空间中执行在线规划，PETS使用学习的动力学进行模型预测控制，Dreamer通过学习到的潜模型中的想象轨迹改进行为，而TD-MPC则在决策时结合潜动力学模型与轨迹优化。相比之下，典型的无模型方法如DQN、PPO和SAC通常通过学习策略的直接前向传递或基于价值的决策规则来行动，而不是通过假设的未来进行显式搜索。

第三个区别涉及样本效率。世界模型方法的一个反复出现的动机是，学习的动力学模型允许智体通过预测、想象或规划更有效地重用真实经验。PILCO是基于模型控制中极端数据效率的经典例子，而PETS、MBPO和Dreamer则表明，在现代连续控制和视觉控制环境中，学习的模型可以显著提高每个真实环境步骤的性能。无模型方法通过构造不利用显式的学习模拟器；相反，它们仅从真实或回放的转移中改进策略或价值函数。

然而，世界模型的优势伴随着一个特征性缺陷：模型偏差。如果学习的动力学不准确，长的想象推演可能会偏离真实环境，并诱导策略利用建模错误。PILCO明确将模型偏差作为核心问题，并通过概率动力学和不确定性感知规划来解决它，而MBPO则表明短的分支推演可以在实践中减少模型利用的有害影响。无模型强化学习避免这种特定的失败模式，因为它不依赖环境动力学的显式多步预测，尽管它牺牲基于模型系统可用的一些结构性杠杆。

两种范式在表示学习上也存在差异。在现代世界模型架构中，潜状态不仅被训练来支持行动选择，而且还被训练来总结环境随时间的隐藏动力学。世界模型、PlaNet和Dreamer都依赖于支持预测和想象的紧凑潜表示，而不是纯粹的反应式控制。相比之下，在标准无模型强化学习中，学习的表示通常仅在它们改善当前任务的策略或价值估计时才被优化。这种差异通常使世界模型的表示更自然地可重用，用于下游规划或适应。

这种区别在泛化和迁移方面变得尤为重要。DARLA表明解耦表示可以改善强化学习中的零样本迁移，而模式网络则证明，环境动力学的生成式因果模型能够在结构化任务上实现比反应式基线更强的迁移和组合泛化。更广泛地说，学习的世界模型原则上可以与新的奖励、目标或规划器配对，而无需丢弃所有先前获得的环境动力学知识。相比之下，无模型策略通常与其训练时所基于的奖励结构更紧密地耦合。

另一个关键区别是对反事实和假设性推理的支持。因为世界模型指定世界将如何在替代行动下演变，它们自然支持"如果"分析。Woulda, Coulda, Shoulda通过使用结构化因果模型从记录的经验中进行反事实策略搜索形式化了这一思想，而模式网络同样强调了用于推理未见情况的生成式因果结构。标准的无模型强化学习本身不提供评估替代未来的显式模拟器；任何此类推理都必须外部添加或通过价值估计间接近似。

世界模型还可以提供更大的内部预测透明度。在世界模型和Dreamer中，研究者可以检查重构、潜在推演或想象轨迹，而模式网络则暴露了一个明确结构化的对象交互和后果生成模型。相比之下，像DQN或SAC这样的无模型策略通常更隐式地将知识编码在策略和价值参数中，这可能使事后解释更加困难。

进一步的区分涉及不确定性。PETS使用概率集成来捕捉学习动力学中的不确定性，而PILCO通过高斯过程动力学直接建模不确定性；更一般地说，近似贝叶斯技术如蒙特卡洛dropout为深度模型中的预测不确定性估计提供了实用途径。无模型强化学习也可以推理不确定性，但通常是通过价值估计中的不确定性，而不是未来世界轨迹上的显式不确定性；例子包括用于深度探索的Bootstrapped DQN和用于学习回报分布的分位回归。因此，世界模型中的不确定性通常更直接地与预测和规划相关联。

尽管存在这些对比，世界模型与无模型强化学习之间的界限并非绝对。许多强大的现代智体是混合的。Dreamer将学习的世界模型与潜想象中的AC学习相结合，MBPO使用学习的模型为离策略学习提供合成数据，TD-MPC将潜动力学与价值学习相结合用于控制，而SPR则展示预测性潜目标可以显著改进原本是无模型的智体。因此，现代格局更应被视为一个连续谱：世界模型方法将预测和内部模拟置于控制的核心，而无模型方法则将直接回报优化置于核心。

总之，根本区别在于，世界模型学习环境的一个内部预测性解释，并将其用于想象、规划或推理，而无模型强化学习则学习有效行动，无需显式的环境模拟。这种差异会传播到下游属性，包括规划能力、样本效率、对模型偏差的脆弱性、迁移潜力、反事实推理和不确定性处理。

4 潜空间在世界模型中的作用

现代世界模型中一个决定性的设计选择是未来预测是在观测空间（例如原始像素）还是在学习到的潜空间中进行。大多数成功的世界模型在潜空间中运行，这一设计选择对预测准确性、计算效率和下游任务性能具有重大影响。

潜预测的动机。现实世界中的观测通常是高维的，并包含大量与决策无关的信息。例如，一个64×64的RGB图像包含12,288个维度，而256×256的RGB图像则包含196,608个。预测未来每一帧的每个像素在计算上非常昂贵，并且迫使模型将容量分配给视觉上复杂但与决策无关的细节（例如纹理、光照变化）。相比之下，潜空间预测将观测压缩成一个紧凑的表示z_t，该表示保留与决策相关的信息，同时过滤掉感知噪声，从而将维度降低若干数量级（例如从12,288维降到典型实现中的32-256维）。

确定性 vs. 随机性潜空间。早期的世界模型使用确定性编码器，但随机性环境需要能够捕获偶然不确定性的随机性潜表示。

Ha&Schmidhuber使用了具有高斯潜空间的变分自编码器，其中潜代码的随机性捕获环境固有的不可预测性。循环状态空间模型引入一种混合设计：一个保持时间记忆的确定性循环状态h_t，结合一个从学习的先验或后验分布中采样的随机性组件z_t。这种双重结构已被整个Dreamer系列及许多后续模型所采用。DreamerV2进一步证明，离散的分类潜变量在Atari游戏上优于连续的高斯潜变量，可能是因为离散表示更好地捕获游戏状态转变的离散性质。

连续 vs. 离散token化。连续潜空间的一种替代方案是离散token化，其中观测被映射到一个有限的学习代码词汇表。例如，IRIS使用一个VQ-VAEtoken化器将图像帧转换为离散token，然后通过下一个token预测与Transformer建模动力学。这一公式创建与语言建模的紧密平行关系，并允许使用分类交叉熵目标进行训练。STORM采用一种混合策略，结合了随机性连续潜变量与基于Transformer的动力学，从而占据连续方法与完全离散方法之间的中间位置。

表示空间中的预测。 LeCun提出联合嵌入预测架构（JEPA）作为像素空间预测和基于重构潜建模的原则性替代方案。在JEPA中，模型直接预测嵌入空间中未来观测的表示，而不是重构观测本身，并且不需要解码器。这一公式避开像素重构的瓶颈，该瓶颈通常惩罚在任务无关细节上的错误，也避免像素级损失相关的模态平均效应。I-JEPA验证这种方法在图像表示学习中的有效性，而V-JEPA和V-JEPA 2则将其扩展到视频，在大规模视频理解和零样本机器人规划中展示强大性能。

潜空间结构与下游性能。潜空间的结构直接影响想象推演的质量，进而影响在想象轨迹上训练的策略的有效性。如果潜空间未能编码决策相关因素，如目标位置、速度或接触动力学，那么即使准确的动力学模型也会生成无信息的预测。相反，一个试图保留每个感知特征的过于详细的潜空间可能将容量浪费在无关变化上。MuZero的成功，它学习一个完全为奖励和价值预测优化的潜在表示而没有任何重构目标，说明任务对齐的潜空间可以优于基于重构的替代方案。DreamerV3通过使用symlog变换和分类价值分布在奖励尺度高度可变的域之间保持校准，进一步强调精心结构化潜表示的重要性。

尽管潜世界模型取得了成功，仍有几个开放挑战，包括：(1) 潜空间崩溃，其中不同的观测被映射到相同的编码，关键信息丢失；(2) 表示漂移，其中潜空间在训练内发生变化，破坏想象数据的一致性；(3) 解耦，即学习对应可解释物理因素的潜维度；以及 (4) 可扩展性，即设计在环境复杂性增加时仍保持紧凑和富有表达力的潜空间。

基于架构的世界模型分类。

世界模型架构可以沿几个互补的轴进行分析，每个轴反映模型如何编码观测、表示动力学、处理不确定性以及支持下游决策制定的一个关键设计维度。简而言之，这些轴为比较现有方法和理解不同架构选择之间的权衡提供一个结构化框架。

1 按表征方式分类

选择如何表示环境状态是一个基本的设计决策，它决定世界模型保留什么信息、多步预测的易处理性以及模型可以支持什么下游任务。有六个主要的表示家族。

观测空间（像素级）表征

最直接的方法是在原始观测空间------通常是RGB像素或LiDAR点云------中预测未来观测。早期的视频预测模型在像素空间中运行，近期基于扩散的世界模型如DIAMOND和GameNGen也是如此。优点是没有信息被丢弃：每个视觉细节都可供下游使用。缺点是维度高、模型容量被分配给决策无关的细节，以及多步预测的计算成本。像素空间模型在视觉保真度本身成为目标时最合适，例如在视频生成或游戏模拟中。

连续潜表示

大多数成功的世界模型通过一个学习的编码器将观测压缩成连续潜向量，然后在这个紧凑空间中预测动力学。Ha&Schmidhuber使用变分自编码器将64×64帧压缩成32维高斯潜代码。循环状态空间模型引入一个混合连续潜状态，包括一个保持时间记忆的确定性循环组件h_t，以及一个从学习的高斯分布采样的随机性组件z_t。

这种确定性与随机性的划分已被整个Dreamer系列和后续许多模型所采用。连续潜空间通过随机性组件提供原则性的不确定性量化，并且非常适合那些状态之间平滑插值有意义的连续控制领域。其局限性是，当使用像素级解码器时，由于高斯似然假设，倾向于产生模糊的重构。

离散token表示

一种替代方案是将观测量化到一个有限的离散代码词汇表中，通常通过一个VQ-VAE 的token化器。IRIS将每个图像帧转换为一个离散token序列，然后将动力学视为下一个token预测------与语言建模建立了直接的平行关系。DreamerV2证明离散的分类潜变量在Atari游戏上优于连续的高斯潜变量，可能是因为离散表示更好地捕获游戏状态转变的离散性质。GAIA-1将这种方法扩展到驾驶，token化视频帧并使用一个90亿参数的Transformer自回归地预测未来token。离散表示能够利用强大的自回归Transformer架构与分类交叉熵训练，但由于量化瓶颈而牺牲了细粒度的空间细节。

联合嵌入预测

LeCun提出联合嵌入预测架构（JEPA）作为一种原则性替代方案，它既避免像素空间重构，也避免显式token化。在JEPA中，一个预测器网络将当前观测的嵌入映射到下一个观测的嵌入，目标嵌入由一个指数移动平均编码器产生：ẑ_t+1 = predictor_θ(z_t), z_target_t+1 = enc_θ̄(o_t+1)。不使用解码器；损失完全在表示空间中运作。这避免像素重构瓶颈和像素级损失中固有的模态平均。I-JEPA在图像上验证了这一点。V-JEPA将其扩展到视频，而V-JEPA 2------在超过一百万小时的互联网视频上预训练------在视频理解中达到了最先进水平，并实现了零样本机器人规划。MuZero也可以被视为在一个任务对齐的表示空间中运行，因为其潜动力学完全是为奖励和价值预测优化的，没有任何重构目标。

结构化和以目标为中心的表示

不是将世界状态视为一个整体的向量或token序列，以目标为中心的模型将其分解为一组插槽，每个插槽代表一个具有自身属性的不同实体：s_t = {slot¹_t, slot²_t, ..., slotᴺ_t}。Kipf引入对比结构化世界模型，该模型通过对比学习学习以目标为中心的表示，并通过一个图神经网络对插槽上的动力学进行建模。RoboDreamer将语言指令分解为原始组件，并使用以每个组件为条件的组成扩散模型。DreMa将高斯溅射（GS）与物理模拟器结合起来进行目标级场景操作。以目标为中心的表示支持对新目标配置的组合泛化，并且更可解释，但它们随着目标数量的增加而扩展性差，并且假设环境可以干净地分解为离散实体。

3D和占用率表示

对于具有丰富空间结构的领域，世界模型可以将环境表示为3D占用网格、体素或点云。OccWorld使用类似GPT的模型自回归地预测未来3D占用token，用于自动驾驶，实现了空间一致的场景预测。Copilot4D通过学习通过离散扩散预测LiDAR点云，在1秒预测中实现了超过65%的Chamfer距离减少。Kong调查3D和4D世界建模方法，建立了跨视频、基于占用和基于点云生成的分类。这些表示对于自动驾驶和机器人尤为有价值，因为3D空间推理对于安全规划至关重要，但它们会产生与空间分辨率成立方关系增长的显著内存和计算成本。

2 按动力学特性分类

理解世界模型的一个基本维度在于它们如何表示和学习动力学，即潜状态的时间演化。这种视角不是关注架构组件，而是根据转移机制的形式对模型进行分类，通常表示为p(s_t+1 | s_t, a_t)。这一观点对于诸如医疗健康等动力学对应于疾病进展、治疗反应和纵向生理变化的领域尤其相关。

确定性动力学

确定性动力学模型假设下一个状态是当前状态的单值函数，即s_t+1 = f_θ(s_t, a_t)。这种公式简化学习，并能够在潜空间中高效地进行多步推演。早期的世界模型如World Models和PlaNet采用这种范式，使用循环网络传播潜状态。后续工作如Dreamer进一步证明，确定性潜动力学可以支持长时域想象和策略优化。

然而，确定性公式本质上难以捕捉多模态未来和不确定性，常常导致平均化或过于自信的预测。这种局限性在医疗应用中尤其成问题，因为疾病轨迹表现出显著的患者间变异性。

随机动力学

为了解决确定性转移的局限性，随机性动力学模型引入潜变量来表示不确定性，将转移建模为分布而非点估计。在实践中，这通常通过变分状态空间模型实现，其中潜随机性变量捕获影响时间演化的未观测因素。现代潜世界模型，包括PlaNet和Dreamer的扩展，将随机性潜组件整合到其转移公式中，使其能够表示环境中的偶然不确定性。

隐式生成动力学

隐式生成动力学不直接参数化转移密度p(s_t+1 | s_t, a_t)，而是学习一个隐模型，该模型可以从中进行采样或进行密度比估计。基于扩散的世界模型是一个典型例子，其中未来的潜状态或观测通过逐步去噪过程生成。这些方法在生成高保真视频预测方面特别有效，其中显式密度建模可能会由于复杂的高维分布而难以处理。

表征空间预测动力学

表示空间预测动力学模型预测表示空间的转移，而不输出关于原始观测或潜变量的显式分布。JEPA和相关方法将预测头直接放置在由编码器产生的抽象表示之上。这使得模型能够专注于预测对下游任务有用的抽象特征，而不是详尽地重建观测。

记忆增强动力学

记忆增强动力学通过外部记忆机制扩展标准的转移公式，允许模型维护和查询超出标准循环状态或Transformer上下文窗口的长期依赖关系。这些系统通常将标准动力学模型与可微分内存模块配对，允许模型在需要时检索相关信息。

讨论与开放性挑战

每种动力学公式都代表易处理性、表达能力和信息保留之间的不同权衡。确定性模型在高维状态空间中可以高效训练和推演，但缺乏捕捉偶然不确定性的能力。随机性模型提供更丰富的表示，但可能更难训练且更容易出现潜空间崩溃。隐生成模型可以产生高度逼真的预测，但在可靠性至关重要的任务关键应用中可能难以控制。表示空间方法避免像素级预测的不必要细节，但可能丢弃对某些下游任务有用的信息。记忆增强机制提供扩展上下文长度的前景，但增加架构复杂性和计算开销。当前系统的关键挑战包括确保多步推演预测在长时间范围内保持连贯性、有效平衡确定性和随机性组件以捕获不同类型的不确定性，以及开发同时保持计算效率和表示能力的动力学公式。

3 按模态分类

世界模型可以根据它们处理和理解输入数据的感官模态进行分类。这一分类维度因其对世界模型架构、学习目标及其适用应用领域的直接实际影响而具有根本重要性。选择输入模态决定模型能够建模的感知现实部分，进而塑造其预测目标和方式。

纯视觉世界模型

纯视觉世界模型处理视觉感官数据，主要是图像和视频。它们在所有世界模型架构中最为常见，涵盖了从早期基于CNN的架构到近期的基于Transformer和扩散的模型。这类模型的优势在于，视觉数据提供一种无需转录即可大规模获得的环境丰富表示。这使得它们特别适用于机器人、自动驾驶和视频生成等涉及物理世界交互和理解的应用。

纯语言世界模型

纯语言世界模型将文本作为唯一的输入和输出模态，将世界的结构和动力学建模为文本token序列的转换。这个方向与大语言模型的研究紧密交织。虽然LLM本身通常不被认为是世界模型，但最近的研究工作已开始探讨如何赋予它们核心的世界模型能力------特别是在需要跟踪状态变化和预测行动后果的场景中。

3D 几何世界模型

3D几何世界模型将环境的3D结构显式地纳入其表示和预测机制。它们不再从2D视图操作，而是旨在捕捉空间几何、体占用以及目标和表面在3D中的运动。这一类别由自动驾驶和机器人操作等应用驱动，在这些应用中，精确的3D推理对于避免碰撞和精确操作至关重要。

本体感觉与触觉世界模型

本体感觉和触觉世界模型处理来自智能体自身身体和触觉接触的感官反馈。本体感觉------感知身体部位相对位置和运动的能力------对于具有多个关节的机器人系统至关重要。触觉传感提供关于接触力、纹理和滑移的信息，这对于灵巧操作至关重要。

多模态融合世界模型

多模态融合世界模型同时从多个感官通道接收输入，将视觉、语言、3D几何、本体感觉和触觉信息整合成统一的表示。这种方法利用不同模态提供的互补信息------视觉提供环境上下文的丰富语义，语言允许高级指令和抽象推理，3D信息提供精确的空间推理，本体感觉和触觉则支持物理交互的精细控制。

讨论与开放性挑战

模态分类揭示当前世界模型研究中的一个基本张力：建模通用智能所需的模态多样性与针对特定应用领域优化架构的效率之间的平衡。一个关键挑战是如何在不对齐或缺失的模态数据下学习；在许多现实世界场景中，一个或多个模态可能不可靠或缺失，系统必须能够在信息不完整的情况下稳健运行，同时利用可用数据。另一个关键问题是不同模态表示的整合。每个模态有独特的统计特性、时间分辨率和语义粒度。

4 按学习范式分类

世界模型可以根据指导其学习的目标、数据迁移和训练信号进行广泛分类。学习范式决定了世界模型如何从与环境或数据的交互中获取其对环境动力学的表示。这种分类至关重要，因为它直接塑造了世界模型所学表示的质量、其所需的数据量、其计算效率以及其最终的有效性。世界模型的学习涉及多个相互关联的挑战，包括定义适当的预测目标、处理部分可观测性、避免表示崩溃以及实现对新环境的泛化。不同的学习范式为代表这些挑战和权衡提供了不同的优先方案。

自监督与无监督学习

自监督学习，特别是通过掩码预测或时间对比目标的形式，已成为一种大规模预训练世界模型的主导范式，无需依赖奖励信号或人工注释。其核心思想是利用数据本身的结构来生成监督信号。在图像领域，这可以通过掩码图像建模或对比学习来实现，通过要求模型从上下文预测数据缺失部分来学习丰富的语义表示。将自监督学习扩展到视频和时间序列数据自然适合世界模型学习，因为这涉及在时间上预测未来帧或潜在表示。

在线基于模型的强化学习

在线基于模型的强化学习将世界模型的学习与决策的探索交织在一起。在此设置中，智体与其环境交互，收集用于训练或更新世界模型的真实数据，然后使用生成的数据或规划来指导其决策。关键挑战是平衡探索与利用：智体必须收集足够多样化的数据来学习准确的动力学模型，同时利用其当前知识来做出良好的短期决策。

离线与批处理学习

离线或批量学习涉及从一个固定的先前记录的数据集中学习世界模型，无需与环境进行进一步的交互。这在实际场景中特别有价值，因为与环境交互成本高昂、危险或困难。关键挑战来自分布偏移：当智体使用学习的世界模型进行规划或决策时，其生成的行动可能会将状态分布推向训练数据覆盖较差的区域，导致模型预测依赖于对未见状态的不可靠外推。

基础模型范式：大规模预训练与适配

世界模型学习的最新前沿涉及从大规模、多样化的互联网规模数据集中预训练一个通用世界模型，然后将其适应于特定的下游任务或环境。这种"基础模型"方法旨在学习一个关于世界动力学的广泛可重用表示，该表示可以快速适应新环境，而无需从头开始训练。关键挑战包括处理跨多个环境和模态的巨大变异性，设计有效的适应策略以避免灾难性遗忘，以及确保预训练捕获了足以支持下游任务的有意义的结构。

监督学习与模仿学习

世界模型可以从提供的专家演示中学习，其中世界模型被训练来预测由专家政策生成的轨迹的下一个状态。这种范式直接将世界模型学习与模仿学习联系起来。通过将环境动力学建模为从状态-动作对到下一个状态的映射，专家演示的上下文可能无法覆盖典型状态分布的完整范围。

混合与多阶段学习范式

许多最先进的系统结合多种学习策略，以利用每种策略的优势，同时减轻其局限性。常见的模式是两阶段方法：无监督或自监督预训练来学习一般感知，然后是基于模型的强化学习来学习任务导向的动力学和策略。

讨论与开放性挑战

世界模型的学习范式代表了数据效率、泛化、探索质量和目标导向之间的根本权衡。自监督方法从大规模无标注数据中学习丰富的世界知识，但缺乏具体任务的目标。在线RL将学习与决策交织在一起，但其探索效率可能受到限制。离线学习利用已有的数据集，但遭受分布偏移。基础模型范式提供了跨域泛化的前景，但带来了与可扩展训练和有效适应相关的挑战。该领域的未来进步将依赖于开发能够无缝整合多种范式的混合方法，以发挥每种范式的优势。

5 按下游应用分类

世界模型可以根据其学习表示的预期下游应用进行分类。虽然所有世界模型都旨在模拟环境动力学，但其表示针对不同任务领域进行优化，这反过来影响架构选择、学习目标和评估标准。

强化学习与规划

世界模型在强化学习中使用时，作为内部模拟器来支持基于价值的规划、策略优化或探索。关键要求是模型能够生成准确的长期回报预测，以便智体可以有效地将价值归因于行动。这包括基于模型的强化学习，其中世界模型用于生成想象的轨迹，智体可以通过这些轨迹来训练其策略，以及规划，其中智体使用世界模型在行动之前搜索最佳行动序列。

自动驾驶

在自主驾驶中，世界模型必须支持在高度动态和不确定的环境中进行安全、实时的决策。关键要求包括：处理大规模、高维传感器数据，如摄像头和LiDAR；对静态和动态场景元素进行准确预测；支持安全关键规划；以及对分布外场景的鲁棒性。

机器人技术与具身智能

在机器人和具身AI中，世界模型必须使智体能够与物理世界进行交互，经常需要精细的操作技能和长期任务规划。关键要求是支持接触丰富的操作、处理部分可观测性和感官噪声，以及实现持续学习以适应新环境。

医疗保健与医学影像

在医疗健康领域，世界模型被用于建模疾病进展、预测治疗结果以及分析医学图像和视频。关键要求包括：能够从高维患者数据中学习复杂的非线性动力学；处理异质性和数据稀缺性；以及提供可解释的预测以支持临床决策。

视频生成与创意模拟

在视频生成中，世界模型的任务是从特定初始条件或用户输入生成关于未来事件的逼真预测。虽然这些方法不涉及直接的行动控制输出，但它们本质上学习视频中世界的动力学，并可以生成多样化的轨迹，反映了不同可能未来的分布。

语言推理与决策制定

在自然语言处理的背景下，世界模型被用来赋予语言模型以追踪状态变化和推理行动后果的能力。这种能力对于涉及多步推理、对话或任务完成的系统至关重要。

讨论与开放性挑战

这一分类强调了世界模型适应的广泛任务范围。一个长期目标是开发一个统一的、通用的世界模型，它可以支持所有这些下游用途，无需针对每个应用定制。然而，每个领域独特的要求------例如自主驾驶的实时安全约束或医疗应用的纵向预测------表明，系统可能需要保留针对特定任务优化的能力，同时以通用世界知识为基础。迈向这一目标的关键挑战包括开发捕捉物理世界核心知识的预训练目标，以及设计适应机制，允许该知识有效地用于不同的下游任务。

基于方法论类别的世界模型分类。

1 状态空间与循环潜在世界模型

状态空间和循环潜世界模型是最早且最具影响力的方法论家族之一，为现代基于模型的强化学习奠定了基础。这些模型将世界状态表示为一个潜在的、通常连续的向量，并利用循环神经网络来建模环境的时间演变。该领域著名的里程碑成就包括World Models、PlaNet和Dreamer系列。其核心思想是利用编码器将高维观测压缩为紧凑的潜表示，而后通过循环转移函数推进该表示，以支持预测和决策。

2 基于 Transformer 的世界模型

在基于序列建模的Transformer架构的成功推动下，Transformer已成为构建世界模型的核心组件。它们通过自注意机制为长距离依赖和复杂转换模式提供强大的建模能力。此家族的工作涵盖多种方法，从将动力学重新定义为下一个token预测，到利用Transformer架构的规模优势进行大规模世界模型预训练。代表系统包括IRIS、STORM、GAIA-1等，其中IRIS将VQ-VAE与Transformer结合，将图像帧离散化后作为token序列进行自回归预测；GAIA-1则结合了文本、视觉和行动输入，生成逼真的驾驶视频。

3 基于扩散模型的世界模型

基于扩散的世界模型利用扩散过程生成未来状态或观测。这与确定性或一次生成方法不同，它通过逐步去噪的方法实现高保真度的预测。代表系统如DIAMOND，将扩散模型嵌入到基于模型的强化学习框架中，在视觉观察空间中进行预测。GameNGen则模拟了经典视频游戏，在每步根据之前的帧和行动生成后续游戏画面。这类模型模拟的多模态预测能力在视频预测中特别出色。

4 物理信息驱动与结构化世界模型

物理信息与结构化世界模型将物理定律和显式结构整合到框架中，旨在实现更具可解释、数据效率和物理一致性的预测。硬件在环和因果世界模型也属于此范畴。该方向的一个典型潮流是利用神经算子或偏微分方程进行天气预报等科学应用，将物理仿真器集成到可微分的深度学习管道中。

5 语言增强与多模态世界模型

语言增强与多模态世界模型通过将自然语言作为表示、推理和交互的核心模态来扩展世界模型能力。通过将语言集成到世界模型框架中，模型可以处理文本指令和指令驱动的预测。这包含基于视频的世界模型，如Sora，它将视觉观察与语言描述对齐，用于共同表示；另一个代表是Genie，一种从互联网视频中学习的可交互模拟器。此家族还包含了语言接地智体，通过结合视觉-文本转换和行动空间（如Smallville）来模拟社会行为和任务管理。

世界模型：架构、方法、推理与应用的综述（上）

1 定义与基本概念

2 世界模型的关键组件

3 世界模型与无模型强化学习（Model-free RL）的根本区别

4 潜空间在世界模型中的作用

1 按表征方式分类

2 按动力学特性分类

3 按模态分类

4 按学习范式分类

5 按下游应用分类

1 状态空间与循环潜在世界模型

2 基于 Transformer 的世界模型

3 基于扩散模型的世界模型

4 物理信息驱动与结构化世界模型

5 语言增强与多模态世界模型

。。。待续。。。