World Model 发展,从生成、控制到表征的范式之争

一、起点:表征学习 vs 可预测世界(2018--2019)

1. World Models (Ha & Schmidhuber, 2018)

核心结构

  • VAE(表征学习)
  • MDN-RNN(动力学建模)
  • Controller(决策)

关键思想

  • 在 latent 空间中建模世界
  • 通过 imagination(想象)进行决策

贡献

  • 首次明确提出:world model = latent dynamics
  • 强调:预测未来 ≠ 理解世界

问题

  • 预测模糊,长期不稳定
  • 强依赖 pixel reconstruction

影响

开启两条重要路线:

  1. 生成式 world model(pixel-level)
  2. latent dynamics(抽象状态)

2. PlaNet (Hafner et al., 2019)

核心模型

  • RSSM(Recurrent State Space Model)
    • stochastic + deterministic state

关键突破

  • 可以在 latent space 中进行 planning
  • 不再依赖 pixel reconstruction 做决策

重要意义

👉 world model 首次"能用来控制"

分歧开始出现

  • 控制派:world model 是为了决策
  • 生成派:world model 是为了生成

二、第一次"奏效":Dreamer 系列(2020--2023)

Dreamer / DreamerV2 / DreamerV3

核心思想

  • 在 latent space 中:
    • rollout imagined trajectories
    • 直接训练 policy

关键能力

  • 不依赖真实环境采样
  • sample efficiency 极高

里程碑

👉 在 Atari / DMControl 上达到 SOTA


出现的质疑

  1. world model ≠ 通用智能
  2. 仅适用于:
    • 低复杂度环境
    • 可预测动力学

核心分歧

问题 Dreamer 立场 反对观点
是否需要高保真生成 不需要 diffusion 阵营认为需要
是否需要 pixel-level 不需要 video model 强调需要
泛化能力 可以学到 被广泛质疑

三、分叉:视频生成 vs 控制(2021--2024)


A. 视频生成路线(Scale Up)

代表工作:

  • Video Diffusion Models (2022)
  • Phenaki (2022)
  • Sora (2024)

核心思想

  • world model = 能生成未来视频

强调能力

  • realism(真实感)
  • 长时序一致性

认知改变(关键)

👉 "world model = video model" 开始流行


被质疑的问题

  • 没有 causal understanding
  • 不具备 control 能力
  • 更像"视觉拟合器"

与控制派的核心分歧

问题 视频派 控制派
目标 生成真实世界 支持决策
表征 pixel-level latent
评估 realism reward

B. 控制派强化

MuZero (2020)


核心思想

  • 不预测 observation
  • 只预测:
    • reward
    • value
    • policy

颠覆性观点

👉 不需要建模世界本身


认知冲突

传统 world model MuZero
预测未来状态 不需要
重建 observation 不需要
强调可解释性 不强调

影响

👉 引出:task-oriented world model


四、第二次认知升级:表征才是核心(2022--2024)

JEPA(Joint Embedding Predictive Architecture)


核心思想

  • 不做生成
  • 只预测 representation

核心论断

👉 "生成像素是错误方向"


直接挑战

  • diffusion
  • video generation
  • VAE world model

分歧升级

路线 是否生成像素
diffusion
Dreamer
JEPA 强烈反对

认知改变

  • world model ≠ generative model
  • 强调:
    • abstraction(抽象)
    • invariance(不变性)

五、统一尝试:Foundation World Models(2023--2025)

代表工作:

  • RT-2 (2023)
  • VPT (2022)
  • DriveVLA (2025)

核心思想

  • 使用 Transformer 统一:
    • video
    • action
    • language

👉 world model = sequence model


关键突破

  • 多模态统一建模
  • scaling 带来能力提升

关键问题

  • 缺乏显式:
    • physics
    • causality

路线分歧

路线 是否需要结构
VLA 不需要(end-to-end)
Dreamer 需要(latent dynamics)
JEPA 需要(抽象结构)

六、最新阶段:冲突集中爆发(2024--2026)


冲突1:生成 vs 表征

  • diffusion / video:生成越真实越接近世界
  • JEPA:生成是错误目标

👉 当前趋势:

  • 短期:video scaling 占优
  • 长期:representation 被看好

冲突2:是否需要因果建模

  • Dreamer:隐式学到即可
  • JEPA:必须显式建模

冲突3:是否必须支持控制

观点 代表
必须支持 Dreamer
不需要 Sora
可选 VLA

七、关键认知转折点(最重要)


转折1(2019 PlaNet)

👉 world model 可以直接用于 control


转折2(2020 MuZero)

👉 不需要重建世界


转折3(2022 视频生成)

👉 world model = video model


转折4(2023 JEPA)

👉 world model ≠ generative model


转折5(2023--2025 VLA)

👉 world model = sequence modeling


八、本质分歧(核心总结)

可以归结为三个哲学问题:


1. 世界是否需要"看起来真实"?

  • diffusion:需要
  • Dreamer:不需要
  • JEPA:不需要

2. 世界是否需要"可控"?

  • Dreamer:必须
  • MuZero:部分需要
  • Sora:不需要

3. 世界是否需要"因果结构"?

  • JEPA:必须
  • diffusion:不需要
  • Dreamer:隐式学习

九、一句话总结

World Model 的发展,本质上是三种范式的长期拉扯:

  • 生成派(diffusion / video)

    👉 世界 = 能生成真实未来

  • 控制派(Dreamer / MuZero)

    👉 世界 = 支持决策

  • 表征派(JEPA)

    👉 世界 = 可预测的抽象结构


十、一个更深层的理解(加餐)

如果再往本质压一层:

  • diffusion 在解决:"世界长什么样"
  • Dreamer 在解决:"世界怎么影响决策"
  • JEPA 在解决:"世界的本质结构是什么"

👉 三者其实不是替代关系,而是:

同一个 world model 的三个正交维度


如果你后续在做自动驾驶 / VLA,可以重点思考:

你的 world model,是在做:

  • video prediction?
  • latent planning?
  • 还是 structure learning?

这会直接决定你的模型上限。

相关推荐
真·skysys16 分钟前
On-Policy Distillation
人工智能·深度学习·机器学习
学弟21 分钟前
【内涵】深度学习中的三种变量及pytorch中对应的三种tensor
人工智能·pytorch·python
xwz小王子31 分钟前
多视角视频扩散策略:一种三维时空-觉察视频动作模型
人工智能·音视频
我是无敌小恐龙32 分钟前
Java SE 零基础入门Day01 超详细笔记(开发前言+环境搭建+基础语法)
java·开发语言·人工智能·opencv·spring·机器学习
Ww.xh39 分钟前
规避GCJ02偏移的坐标统一方案
人工智能
深圳市九鼎创展科技1 小时前
MT8883 vs RK3588 开发板全面对比:选型与场景落地指南
大数据·linux·人工智能·嵌入式硬件·ubuntu
CareyWYR1 小时前
AI Coding 订阅的集体退潮:从狂欢到收紧,中间只隔了一个季度
人工智能
NineData1 小时前
NineData 亮相香港国际创科展 InnoEX 2026,以 AI 加速布局全球市场
运维·数据库·人工智能·ninedata·新闻资讯·玖章算术
IT_陈寒1 小时前
Vite的热更新突然失效,原来是因为这个配置
前端·人工智能·后端