世界模型：架构、方法、推理与应用的综述（下）

26年6月来自Augusta大学、U Georgia、NJIT、哈佛医学院、德州Arlington、James Madison大学、Lehigh 大学、悉尼大学、纽约大学、加州希望之城国家医疗中心和亚利桑那州Mayo诊所的论文"World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications"。

世界模型，即学习环境结构及动力学的内部模拟器，已成为追求通用人工智能的核心范式，能够让智体在所学表示中进行预测、规划和推理。尽管在强化学习、机器人、自动驾驶和视频生成等领域取得了快速进展，该领域仍缺乏一个能够整合其多样化架构选择、训练方法、推理机制和应用场景的统一框架。本文通过引入一个全面的多轴分类法来填补这一空白，该分类法沿四个互补维度组织：(i) 架构，涵盖表示格式、动力学公式、输入模态、学习范式和下游应用；(ii) 方法论家族，包括状态空间与循环方法、基于Transformer的模型、基于扩散的生成器、物理信息网络以及语言增强的多模态系统；(iii) 推理策略，涵盖基于想象力的规划、潜策略学习、反事实推理和不确定性下的规划；(iv) 应用领域，涵盖机器人、自动驾驶、视频预测、多模态智体、强化学习、科学建模、医学成像、教育测量以及商业与金融。追溯该领域从早期认知科学基础到里程碑系统（如PlaNet、Dreamer、MuZero、Sora、Cosmos和Genie）的发展历程，本文考察这些维度如何相互作用，并强调思维链（CoT）推理与世界模型想象力近期融合的趋势。本文跨这些轴回顾评估协议和基准，识别持续存在的挑战------包括复合预测误差、模拟-到-现实迁移和碎片化评估实践------并概述朝向统一多模态世界模型、基础规模交互式模拟器以及在安全关键领域安全部署的未来方向。

。。。继续。。。

基于推理策略的世界模型分类。世界模型不仅用于预测未来或模拟环境，还为智能体的推理过程提供了核心支持。

1 基于想象的规划

基于想象力的规划指利用世界的模型来思考可能的未来行为，从而提前评估后果。这是最具特色的推理策略之一。它可以分为两类：学习阶段想象（背景规划）和决策时刻想象（前向搜索）。基于想象的规划在存在高维观测和稀疏奖励的复杂决策任务中尤为有效。

如图2所示基于想象的潜世界模型规划。该过程从当前的潜状态 Z_t 出发，利用学习的动力学模型在潜空间中模拟未来的状态。通过"想象"出的轨迹推演（rollouts）来评估多个候选动作，并利用奖励预测器和价值函数对这些动作进行评分。随后执行选定的动作，并重复上述过程。为便于理解，图中展示的是针对单个动作的简化分支结构；而在实际应用中，规划是针对动作序列进行的，且轨迹推演过程在每一步都依赖于相应的动作。

学习过程中的想象：背景规划

学习时，智体在潜空间中展开想象的轨迹，通过梯度传播训练策略。Dreamer系列是该类方法的典型代表，其中AC在网络训练于想象的轨迹中。

决策时的想象：前向搜索

在决策时，智体执行明确的任务导向搜索。PlaNet正是在潜动作空间中通过使用化采样进行模型预测控制，以选择能够最大化预测总回报的动作。

潜空间想象的跨领域优势

潜在想象的关键优势在于其能够在计算上高效地预测长远未来，从而使得在现实世界的样本效率高，特别是在控制、机器人等任务中。

开放性挑战：误差累积与目标不匹配

该策略面临的主要挑战是积累的复合预测误差，在多步推演后难以保持准确。同时，轨迹的预测目标与策略的实际目标可能存在不一致的情况，导致优化效果打折。

2 利用世界模型进行策略学习

利用世界模型进行策略学习是指不是在规划中进行搜索，而是以世界模型作为环境进行强化学习策略的直接训练。通过将模型作为模拟器使用，可以从很少的真实交互中学习到稳定的策略。Dreamer是此方向的标志性模型；TD-MPC和STORM也继续使用此混合策略。

3 反事实推理

反事实推理是世界模型最强大的能力之一，允许智体思考"如果做了不同的选择会怎样"。反事实推理涉及三个步骤：归纳（重新理解当前可能的状态）、动作（施加改变）和预测。这在结构化世界模型中是特别强的推理形式，因为可以推断因果结构。然而，其面临的关键难题是非可识别性，即无法从观察性数据唯一确定真正的因果模型。

"溯因-行动-预测"流程

反事实计算遵循因果推理中经典的"溯因-行动-预测"（abduction--action--prediction）范式。

第一项对应"溯因"（abduction）过程，模型不仅推断潜状态，还推断出生成特定观测轨迹的底层外生噪声（即未观测到的环境随机性）。这一步骤本质上是不确定的（underdetermined）：多种潜在配置可能解释相同的观测结果，从而给推断出的因果状态带来歧义。在世界模型中，这种歧义尤为显著，因为其表征既要支持准确的前向预测，又要编码有效干预所需的精确因果上下文。

第二项代表"干预"（intervention），即用反事实的替代动作替换实际动作，同时保留推断出的潜上下文。与标准的策略评估不同，该操作明确强制执行"do-算子"（do-operator）语义，确保仅修改与该动作相关的特定因果机制，而所有其他环境因素保持严格不变。

第三项执行"预测"（prediction），即在修改后的动力学规则下推进系统状态 $171$ 。值得注意的是，这种状态演化（rollout）必须与推断出的潜状态及干预动作保持严格一致，这对所学习的转移模型的稳定性和因果保真度提出了极高要求。

至关重要的是，事实轨迹与反事实轨迹在时刻 t 共享完全相同的推断潜状态，二者仅在干预动作上存在差异。因此，反事实推理并非基于任意状态的简单重新模拟，而是一种受因果条件约束的状态演化过程，旨在严格隔离潜环境条件完全相同的情况下，决策变更所产生的影响。

归根结底，"溯因---行动---预测"这一流程揭示出，反事实推理本质上是在共享潜空间内解耦推理、干预与预测的问题。因此，反事实结论的可靠性不仅取决于预测的准确性，更关键地取决于所学表征的可辨识性与因果结构。

反事实为何重要：隔离决策效应

反事实推理的核心价值在于其独特的能力，即能够分离出各项决策所带来的因果贡献。尽管标准的预测模型能够基于观测到的轨迹预测结果，但它们本质上无法将结果归因于特定的行动。反事实推理克服这一局限，它允许在完全相同的潜条件下直接比较不同的决策方案，从而能够明确地将某一行动的真实效应与底层的环境动态分离开来。

在离线强化学习（通常在线交互受限或存在风险 $233$ ）的背景下，反事实世界模型赋予了智体重新解读历史轨迹的能力。通过估算不同动作将如何改变长期回报 $252$ ，该方法有效地将静态观测数据集转化为因果评估的丰富素材，从而在无需进一步与环境交互的情况下，促进了稳健的策略改进。

除了策略优化之外，这种能力在自动驾驶和医疗决策等安全攸关的领域中也至关重要 $253$ 。在这些环境中，判断不良后果是否本可避免，与预测其发生同样关键。在此，反事实推理为责任归属、风险分析和决策审计提供了支撑，从根本上提升了世界模型的作用------使其从单纯的预测演变为因果解释。

归根结底，反事实推理通过在模拟轨迹之上引入因果解释层，成为了基于想象的规划的重要补充。当"想象"主动探索潜在的未来时，"反事实"则通过识别替代性干预措施如何重塑已发生的结果，来追溯性地解释这些结果。两者共同构建决策制定的双重视角，在一个统一的世界建模框架内，将前瞻性预测与回顾性因果归因无缝融合。

迈向因果结构化的世界模型

可靠的反事实推理对表征结构提出了严格要求。仅能满足前向预测充分性的潜状态，若不具备模块化的因果分解特性，未必适用于反事实分析。在表征相互纠缠的传统潜变量模型中，对单一动作的干预可能会无意间引发整个潜空间内广泛且无序的变化。这违背了因果推理的一项核心原则：干预应严格局域化，仅影响其特定的下游机制。

这一局限性揭示预测充分性与因果适宜性之间的根本差距。那些纯粹针对观测重构或预测误差最小化而优化的表征，往往无法保留有效干预所需的模块化结构 $254, 255$ 。因此，真正的反事实推理不仅需要精确的动力学模型，更需要一种从设计之初就支持对独立因果因子进行局域化、可解释操作的表征空间。

为了弥合这一差距，近期的研究方法越来越多地将结构因果模型（SCM）融入世界模型的设计中，积极构建符合因果模块化特性的表征 $256$ 。这一探索的核心目标是实现因果解耦------具体而言，即将受智体动作直接影响的变量与支配更广泛自主环境的变量区分开来 $257, 258$ 。这直接落实独立因果机制（ICM）原则 $259$ ，该原则认为环境的生成过程应分解为相互独立且可组合的组件，使得局部干预不会导致组件间的相互干扰。

在具备这种因果结构特征的表征下，反事实干预表现为对特定机制的精确、局域化修改，而非对整体式潜空间的任意且不可预测的扰动。归根结底，这种范式转变意味着未来的世界模型必须超越单纯作为紧凑预测编码的角色。相反，它们必须作为具有因果结构的表征发挥作用，其中潜空间的几何形态能忠实反映环境动力学背后真实的分解结构。

基本局限性：不可识别性和反事实有效性

尽管世界模型中的反事实推理在概念上极具吸引力，但它面临着严峻的基础性挑战。从理论角度看，核心瓶颈在于"不可识别性"（non-identifiability）------这是一种广为人知的现象，即多个截然不同的潜动力学模型可能完美解释观测到的事实数据，却给出完全相异的反事实预测 $260$ 。因此，仅实现观测层面的准确性，根本不足以保证反事实推理的有效性。

从实践角度看，反事实查询本质上存在将模型推向分布外（OOD）状态的风险。当提出的反事实动作与数据采集时的行为策略（behavioral policy）存在显著偏差时，这种脆弱性尤为突出 $48$ 。在此类外推场景中，模型的推演过程虽可能保持内部逻辑一致，却在因果关系上存在谬误------这种关键的失效模式被称为"反事实幻觉"（counterfactual hallucination） $106$ 。更根本的是，这暴露模型在分布偏移（distribution shift）下的严重脆弱性：预测准确性与反事实正确性极易发生脱节，从而凸显仅依赖标准生成式训练目标所固有的局限性。

要克服这些严峻瓶颈，仅靠扩大预测模型的规模是远远不够的。这需要整合更强的因果结构先验，开发能够识别 OOD 干预的、具备不确定性感知能力的推理机制，并建立专门用于评估因果可靠性（而非仅仅关注重构损失）的严格评估协议。归根结底，要实现值得信赖的反事实世界模型，其表征方式不能仅仅是被动地重现观测到的历史；它们必须能够可靠且一致地支持针对"替代现实"（alternative realities）的扎实推理。

4 不确定性下的规划

当世界模型具有对不确定性的显式建模能力时，规划必须考虑认知不确定性或偶然不确定性。基于模型的规划通常采用显式概率集成（如PETS），通过集成多个模型对预测结果加权，选择相对鲁棒的行为。贝叶斯方法和信息论导向的探索（如BRL）也属于此类。

按应用领域对世界模型进行分类。

1 机器人技术

在机器人领域，世界模型通过将真实的操作环境建模为潜空间动力学，用于学习复杂技能。Daydreamer在真实机器人上直接扩展Dreamer算法，实现了长期、端到端的潜想象学习。RoboDreamer将语言指令与扩散分子模型结合进行灵巧操作。关键的挑战仍然包括Sim-to-Real迁移和接触模型的不确定性。

2 自动驾驶和控制系统

自动驾驶是一个依赖世界模型进行环境预测和决策制定的高速增长领域。代表性模型包括Vista用于生成逼真的驾驶视频，或GAIA-1用于可控的情景预测。此外，基于3D占用率的模型如OccWorld和Copilot4D专注于空间一致性预测。

3 视频预测和场景理解

视频预测是离物理直接更近的世界模型领域，典型代表为Sora、Cosmos等大规模生成模型。这些模型被广泛认为是隐式世界模拟器，但仍在因果结构与可控性方面存在争议。

4 多模态智体和基于语言的系统

该领域强调语言对世界模型的增强，例如Smallville虚拟城镇作为社会模拟世界，通过在社交互动中模拟智体。Actionable LLM通过利用语言报告状态，形成不完整的但直觉性的世界模型。

5 强化学习与游戏

在游戏和RL中，世界模型是克服稀疏回报和样本效率问题的关键。MuZero学习潜奖励和价值模型，Dreamer在模拟中训练。GameNGen展示此类模型对以细节为导向的游戏环境模拟模型。

6 科学建模与领域特定建模

物理和化学等自然科学常常需要开发严格基于数据的世界模型（如神经天气预报，地震建模）。将工程物理约束（偏微分方程）嵌入模型称为物理信息神经网络。

7 医学影像与视频记录

在医学领域，世界模型承担疾病预测和治疗规划任务。代表任务为纵向CT/MR图像预测肿瘤演进。离模态如手术视频使用隐想象提升自主机器人手术质量。进展仍受限于非平稳数据和高变异性的患者生理动力学；因果推理限制也是瓶颈。

医学影像分析与疾病进展预测

面向医学影像的世界模型旨在捕捉解剖结构的时间动态特征，从而预测病变随时间推移的演变过程，例如肿瘤生长、神经退行性萎缩或治疗引发的改变。在此背景下，这些模型通常基于纵向时间点或患者队列进行运作，而非应用于实时交互式环境。

肿瘤演变和治疗规划

治疗规划代表从 L1（时间预测）向 L2--L3（基于行动的预测与反事实推理）的转变；在此过程中，世界模型会显式地模拟患者的疾病状态如何随特定的治疗干预而演变。

视频外科手术和机器人手术

手术世界模型学习手术场景的动态特性------包括器械与组织的相互作用、解剖结构形变、出血以及器械运动------从而支持仿真、培训及自主辅助功能。目前，这些模型处于 L2--L3 阶段，而 L4 级（自主手术规划）则是其追求的前沿目标。

根据电子健康记录进行疾病进展建模

应用于电子健康记录（EHR）时，世界模型学习从结构化的时态患者数据中预测临床事件序列（实验室结果、药物变化、恶化事件），从而实现主动干预规划。 EHR 数据中固有的不规则采样、稀疏性和噪声给视觉世界建模带来了挑战。

能力评估和开放挑战

如图3所示，当前大多数医疗世界模型处于L1--L2阶段；要迈向L3--L4阶段，需要解决若干特定领域的挑战：

数据稀缺与隐私问题：医疗数据集的规模比游戏或自动驾驶领域的数据集小几个数量级。典型的纵向肿瘤学数据集仅包含数百至数千名患者，而Atari游戏或自动驾驶视频则涉及数百万帧图像或数千小时的视频数据。严格的隐私法规（如HIPAA、GDPR）进一步限制数据共享和集中式模型训练。联邦学习和利用世界模型自身生成合成数据虽能提供部分解决方案，但尚未在临床应用中进行大规模验证。
临床验证与干预性"金标准"（ground truth）：从L2向L3进阶，需要验证反事实预测（即"若采用另一种治疗方案，结果会如何？"），而这些结果本质上是无法观测的（因为并未实施该反事实方案）。Qazi建议采用多中心留出法验证（holdout validation）、匹配队列研究及临床医生裁定等方法，但针对世界模型建议的前瞻性随机评估在伦理和实施层面仍面临复杂挑战。
安全性、可解释性与监管审批：部署L4级自主临床世界模型不仅要求高准确性，还需要校准的不确定性估计（模型必须能够识别自身知识的局限性）、可解释性（临床医生需理解建议的依据）以及正式的监管审批途径（如针对"作为医疗器械的AI"的FDA 510(k)或De Novo认证）。在肿瘤学或外科手术中，过度自信的预测可能危及生命；因此，建立"拒绝决策"机制（abstention policies）和"人在回路"（human-in-the-loop）的安全保障措施至关重要。
患者群体的异质性：患者群体在人口统计学特征、合并症、遗传背景及治疗史等方面存在差异。基于某医疗机构队列训练的世界模型，其结论未必能推广至其他机构。域自适应（domain adaptation）、多中心预训练以及通过患者特定条件设定（patient-specific conditioning）实现个性化（如CLARITY 和BrLP 中的方法）是当前活跃的研究领域。
多模态状态构建：临床"观测"数据涵盖了影像（CT、MRI、超声、病理切片）、结构化数据（实验室检查、生命体征、用药记录）、非结构化文本（临床病程记录、影像学报告）以及基因组数据。构建能够整合这些异构模态的完整患者状态表征，既是一项亟待解决的挑战，也是实现具备全面临床推理能力的"世界模型"的必要前提。

8 教育测量

教育领域的世界模型将学生认知结构建模为潜状态动力学，随时间推进。世界模型能够通过模拟学生状态、潜技能和学习路径，动态调整最优教学内容，并预测不同教学策略下的表现。

9 商业与金融

商业与金融的世界模型不同于物理建模，它处理金融市场的社会构造。该领域将市场建模为一系列内部预期与反身反馈的系统。因此，模型的动态不仅包括物理转移，还包含对他人信仰的建模。主要瓶颈包括非平稳性和反馈识别性问题。

超越物理定律：信念建模范式

金融市场和公司架构是由严重的部分可观察性、多主体战略交互和结构非平稳性定义的。系统的潜真实状态------包括机构订单流、市场情绪、消费者需求变化和竞争对手策略------只能通过噪声或延迟信号间接观察到。

正因为如此，商业和金融领域的世界模型不能起到确定性模拟器的作用。相反，它们必须严格按照信念模型运作。潜状态并不对应于具体的空间配置，而是代表隐经济驱动因素的概率分布。这重新构建了基本的建模目标：从预测可观察轨迹转向持续维护和更新有关潜因素的连贯信念，这种方法自然地符合部分可观察马尔可夫决策过程（POMDP）的原则 $383$ 。

方法论轨迹

该领域中世界模型的现有应用大致可归纳为三种方法论路径。第一类是时间序列预测模型，利用循环神经网络（RNN）和时间融合Transformer（Temporal Fusion Transformers） $384$ 等架构，将历史观测数据直接映射为未来的资产价格或运营指标。尽管这些方法在纯粹的预测任务中成效显著，但它们通常缺乏明确且可操作的潜结构，因此在支持反事实干预或因果决策分析方面能力有限。

为克服这一局限，第二类方法采用潜在动力学模型，其设计主要受到状态空间模型（state-space formulations）的启发。通过引入能够捕捉宏观经济状态（如牛市与熊市）、流动性状况或潜在风险因子的隐变量，这些模型将可观测信号与其底层的生成驱动因素明确区分开来。这种机制使得模型能够更稳健地推断突发的状态转换及长时程依赖关系，从而使其更贴近世界模型的核心理念。

第三种日益重要的研究方向将金融系统建模为多智体环境 $385$ 。在该范式下，市场动态被视为异质智体（如算法交易员、机构投资者和散户）相互作用而产生的涌现现象，而这些智体各自追求不同且往往相互竞争的目标。因此，系统的演变不仅取决于外生经济条件，还取决于其他参与者的策略性调整，这在本质上为世界模型引入博弈论的维度。

反事实推理在企业和财务战略中的必要性

在商业与金融领域，战略决策的核心本质在于对各种备选方案的评估与权衡------无论是比较不同的算法交易策略、投资组合配置、动态定价政策，还是供应链干预措施。这种业务现实要求必须进行严谨的反事实推理，即在保持潜市场状况不变的前提下，估算若采取不同决策将会出现何种结果。

根本瓶颈：非平稳性、可识别性和反身性

尽管在概念层面取得了这些进展，但在金融领域应用世界模型仍面临严峻的瓶颈。首先，非平稳性普遍存在：宏观经济状况、监管框架以及参与者的群体行为都在不断演变，导致严重的分布偏移，进而使模型习得的动态特性迅速失效。

其次，不可辨识性构成关键的理论挑战；多种潜配置可能同样出色地解释观测到的历史数据，却会产生截然不同的反事实预测。

第三，或许也是最独特的一点，金融系统表现出"反身性" $387$ ------即模型的部署及其后续行动会直接改变模型试图刻画的那个环境。此类内生效应违背强化学习中关于环境固定且外生的标准假设，从而从根本上增加了长时程预测与鲁棒控制的复杂性。

归根结底，这些特性决定了面向商业与金融领域的世界模型，必须超越单纯作为被动环境模拟器的角色。相反，它们必须被严谨地构建为具备信念驱动、战略感知及因果基础的系统，从而能够独具优势地应对深度不确定性、对抗性交互以及持续的结构性演变。

评估协议和基准。

1 常用评估指标

世界模型评价指标主要分为两类：预测质量和下游任务表现。对于预测质量，常用结构相似性指数、峰值信噪比、均方误差，以及Frechet视频距离等。对于下游任务表现，广泛采用环境的平均回报、样本效率和模拟到真实的迁移成功率。

2 基准环境和数据集

强化学习与机器人领域的基准包括DM Control、Atari、Meta-World、MineDojo和Habitat。在自动驾驶方面，nuScenes、Waymo Open Motion Dataset和CARLA是核心数据集。大规模视频预测数据包括DOA、Kinetics和Something-Something。多模态评测包括OpenEQA和ALFRED。但目前评估存在碎片化问题，不同论文使用不同指标，使得方法间的直接比较变得困难。

主要挑战和局限性（略）。

讨论和未来方向（略）