World Model 发展，从生成、控制到表征的范式之争

一、起点：表征学习 vs 可预测世界（2018--2019）

1. World Models (Ha & Schmidhuber, 2018)

核心结构

VAE（表征学习）
MDN-RNN（动力学建模）
Controller（决策）

关键思想

在 latent 空间中建模世界
通过 imagination（想象）进行决策

贡献

首次明确提出：world model = latent dynamics
强调：预测未来 ≠ 理解世界

问题

预测模糊，长期不稳定
强依赖 pixel reconstruction

影响

开启两条重要路线：

生成式 world model（pixel-level）
latent dynamics（抽象状态）

2. PlaNet (Hafner et al., 2019)

核心模型

RSSM（Recurrent State Space Model）
- stochastic + deterministic state

关键突破

可以在 latent space 中进行 planning
不再依赖 pixel reconstruction 做决策

重要意义

👉 world model 首次"能用来控制"

分歧开始出现

控制派：world model 是为了决策
生成派：world model 是为了生成

二、第一次"奏效"：Dreamer 系列（2020--2023）

Dreamer / DreamerV2 / DreamerV3

核心思想

在 latent space 中：
- rollout imagined trajectories
- 直接训练 policy

关键能力

不依赖真实环境采样
sample efficiency 极高

里程碑

👉 在 Atari / DMControl 上达到 SOTA

出现的质疑

world model ≠ 通用智能
仅适用于：
- 低复杂度环境
- 可预测动力学

核心分歧

问题	Dreamer 立场	反对观点
是否需要高保真生成	不需要	diffusion 阵营认为需要
是否需要 pixel-level	不需要	video model 强调需要
泛化能力	可以学到	被广泛质疑

三、分叉：视频生成 vs 控制（2021--2024）

A. 视频生成路线（Scale Up）

代表工作：

Video Diffusion Models (2022)
Phenaki (2022)
Sora (2024)

核心思想

world model = 能生成未来视频

强调能力

realism（真实感）
长时序一致性

认知改变（关键）

👉 "world model = video model" 开始流行

被质疑的问题

没有 causal understanding
不具备 control 能力
更像"视觉拟合器"

与控制派的核心分歧

问题	视频派	控制派
目标	生成真实世界	支持决策
表征	pixel-level	latent
评估	realism	reward

B. 控制派强化

MuZero (2020)

核心思想

不预测 observation
只预测：
- reward
- value
- policy

颠覆性观点

👉 不需要建模世界本身

认知冲突

传统 world model	MuZero
预测未来状态	不需要
重建 observation	不需要
强调可解释性	不强调

影响

👉 引出：task-oriented world model

四、第二次认知升级：表征才是核心（2022--2024）

JEPA（Joint Embedding Predictive Architecture）

核心思想

不做生成
只预测 representation

核心论断

👉 "生成像素是错误方向"

直接挑战

diffusion
video generation
VAE world model

分歧升级

路线	是否生成像素
diffusion	是
Dreamer	否
JEPA	强烈反对

认知改变

world model ≠ generative model
强调：
- abstraction（抽象）
- invariance（不变性）

五、统一尝试：Foundation World Models（2023--2025）

代表工作：

RT-2 (2023)
VPT (2022)
DriveVLA (2025)

核心思想

使用 Transformer 统一：
- video
- action
- language

👉 world model = sequence model

关键突破

多模态统一建模
scaling 带来能力提升

关键问题

缺乏显式：
- physics
- causality

路线分歧

路线	是否需要结构
VLA	不需要（end-to-end）
Dreamer	需要（latent dynamics）
JEPA	需要（抽象结构）

六、最新阶段：冲突集中爆发（2024--2026）

冲突1：生成 vs 表征

diffusion / video：生成越真实越接近世界
JEPA：生成是错误目标

👉 当前趋势：

短期：video scaling 占优
长期：representation 被看好

冲突2：是否需要因果建模

Dreamer：隐式学到即可
JEPA：必须显式建模

冲突3：是否必须支持控制

观点	代表
必须支持	Dreamer
不需要	Sora
可选	VLA

七、关键认知转折点（最重要）

转折1（2019 PlaNet）

👉 world model 可以直接用于 control

转折2（2020 MuZero）

👉 不需要重建世界

转折3（2022 视频生成）

👉 world model = video model

转折4（2023 JEPA）

👉 world model ≠ generative model

转折5（2023--2025 VLA）

👉 world model = sequence modeling

八、本质分歧（核心总结）

可以归结为三个哲学问题：

1. 世界是否需要"看起来真实"？

diffusion：需要
Dreamer：不需要
JEPA：不需要

2. 世界是否需要"可控"？

Dreamer：必须
MuZero：部分需要
Sora：不需要

3. 世界是否需要"因果结构"？

JEPA：必须
diffusion：不需要
Dreamer：隐式学习

九、一句话总结

World Model 的发展，本质上是三种范式的长期拉扯：

生成派（diffusion / video）

👉 世界 = 能生成真实未来
控制派（Dreamer / MuZero）

👉 世界 = 支持决策
表征派（JEPA）

👉 世界 = 可预测的抽象结构

十、一个更深层的理解（加餐）

如果再往本质压一层：

diffusion 在解决："世界长什么样"
Dreamer 在解决："世界怎么影响决策"
JEPA 在解决："世界的本质结构是什么"

👉 三者其实不是替代关系，而是：

同一个 world model 的三个正交维度

如果你后续在做自动驾驶 / VLA，可以重点思考：

你的 world model，是在做：

video prediction？

latent planning？

还是 structure learning？

这会直接决定你的模型上限。