一、起点:表征学习 vs 可预测世界(2018--2019)
1. World Models (Ha & Schmidhuber, 2018)
核心结构
- VAE(表征学习)
- MDN-RNN(动力学建模)
- Controller(决策)
关键思想
- 在 latent 空间中建模世界
- 通过 imagination(想象)进行决策
贡献
- 首次明确提出:world model = latent dynamics
- 强调:预测未来 ≠ 理解世界
问题
- 预测模糊,长期不稳定
- 强依赖 pixel reconstruction
影响
开启两条重要路线:
- 生成式 world model(pixel-level)
- latent dynamics(抽象状态)
2. PlaNet (Hafner et al., 2019)
核心模型
- RSSM(Recurrent State Space Model)
- stochastic + deterministic state
关键突破
- 可以在 latent space 中进行 planning
- 不再依赖 pixel reconstruction 做决策
重要意义
👉 world model 首次"能用来控制"
分歧开始出现
- 控制派:world model 是为了决策
- 生成派:world model 是为了生成
二、第一次"奏效":Dreamer 系列(2020--2023)
Dreamer / DreamerV2 / DreamerV3
核心思想
- 在 latent space 中:
- rollout imagined trajectories
- 直接训练 policy
关键能力
- 不依赖真实环境采样
- sample efficiency 极高
里程碑
👉 在 Atari / DMControl 上达到 SOTA
出现的质疑
- world model ≠ 通用智能
- 仅适用于:
- 低复杂度环境
- 可预测动力学
核心分歧
| 问题 | Dreamer 立场 | 反对观点 |
|---|---|---|
| 是否需要高保真生成 | 不需要 | diffusion 阵营认为需要 |
| 是否需要 pixel-level | 不需要 | video model 强调需要 |
| 泛化能力 | 可以学到 | 被广泛质疑 |
三、分叉:视频生成 vs 控制(2021--2024)
A. 视频生成路线(Scale Up)
代表工作:
- Video Diffusion Models (2022)
- Phenaki (2022)
- Sora (2024)
核心思想
- world model = 能生成未来视频
强调能力
- realism(真实感)
- 长时序一致性
认知改变(关键)
👉 "world model = video model" 开始流行
被质疑的问题
- 没有 causal understanding
- 不具备 control 能力
- 更像"视觉拟合器"
与控制派的核心分歧
| 问题 | 视频派 | 控制派 |
|---|---|---|
| 目标 | 生成真实世界 | 支持决策 |
| 表征 | pixel-level | latent |
| 评估 | realism | reward |
B. 控制派强化
MuZero (2020)
核心思想
- 不预测 observation
- 只预测:
- reward
- value
- policy
颠覆性观点
👉 不需要建模世界本身
认知冲突
| 传统 world model | MuZero |
|---|---|
| 预测未来状态 | 不需要 |
| 重建 observation | 不需要 |
| 强调可解释性 | 不强调 |
影响
👉 引出:task-oriented world model
四、第二次认知升级:表征才是核心(2022--2024)
JEPA(Joint Embedding Predictive Architecture)
核心思想
- 不做生成
- 只预测 representation
核心论断
👉 "生成像素是错误方向"
直接挑战
- diffusion
- video generation
- VAE world model
分歧升级
| 路线 | 是否生成像素 |
|---|---|
| diffusion | 是 |
| Dreamer | 否 |
| JEPA | 强烈反对 |
认知改变
- world model ≠ generative model
- 强调:
- abstraction(抽象)
- invariance(不变性)
五、统一尝试:Foundation World Models(2023--2025)
代表工作:
- RT-2 (2023)
- VPT (2022)
- DriveVLA (2025)
核心思想
- 使用 Transformer 统一:
- video
- action
- language
👉 world model = sequence model
关键突破
- 多模态统一建模
- scaling 带来能力提升
关键问题
- 缺乏显式:
- physics
- causality
路线分歧
| 路线 | 是否需要结构 |
|---|---|
| VLA | 不需要(end-to-end) |
| Dreamer | 需要(latent dynamics) |
| JEPA | 需要(抽象结构) |
六、最新阶段:冲突集中爆发(2024--2026)
冲突1:生成 vs 表征
- diffusion / video:生成越真实越接近世界
- JEPA:生成是错误目标
👉 当前趋势:
- 短期:video scaling 占优
- 长期:representation 被看好
冲突2:是否需要因果建模
- Dreamer:隐式学到即可
- JEPA:必须显式建模
冲突3:是否必须支持控制
| 观点 | 代表 |
|---|---|
| 必须支持 | Dreamer |
| 不需要 | Sora |
| 可选 | VLA |
七、关键认知转折点(最重要)
转折1(2019 PlaNet)
👉 world model 可以直接用于 control
转折2(2020 MuZero)
👉 不需要重建世界
转折3(2022 视频生成)
👉 world model = video model
转折4(2023 JEPA)
👉 world model ≠ generative model
转折5(2023--2025 VLA)
👉 world model = sequence modeling
八、本质分歧(核心总结)
可以归结为三个哲学问题:
1. 世界是否需要"看起来真实"?
- diffusion:需要
- Dreamer:不需要
- JEPA:不需要
2. 世界是否需要"可控"?
- Dreamer:必须
- MuZero:部分需要
- Sora:不需要
3. 世界是否需要"因果结构"?
- JEPA:必须
- diffusion:不需要
- Dreamer:隐式学习
九、一句话总结
World Model 的发展,本质上是三种范式的长期拉扯:
-
生成派(diffusion / video)
👉 世界 = 能生成真实未来
-
控制派(Dreamer / MuZero)
👉 世界 = 支持决策
-
表征派(JEPA)
👉 世界 = 可预测的抽象结构
十、一个更深层的理解(加餐)
如果再往本质压一层:
- diffusion 在解决:"世界长什么样"
- Dreamer 在解决:"世界怎么影响决策"
- JEPA 在解决:"世界的本质结构是什么"
👉 三者其实不是替代关系,而是:
同一个 world model 的三个正交维度
如果你后续在做自动驾驶 / VLA,可以重点思考:
你的 world model,是在做:
- video prediction?
- latent planning?
- 还是 structure learning?
这会直接决定你的模型上限。