World Model 发展,从生成、控制到表征的范式之争

一、起点:表征学习 vs 可预测世界(2018--2019)

1. World Models (Ha & Schmidhuber, 2018)

核心结构

  • VAE(表征学习)
  • MDN-RNN(动力学建模)
  • Controller(决策)

关键思想

  • 在 latent 空间中建模世界
  • 通过 imagination(想象)进行决策

贡献

  • 首次明确提出:world model = latent dynamics
  • 强调:预测未来 ≠ 理解世界

问题

  • 预测模糊,长期不稳定
  • 强依赖 pixel reconstruction

影响

开启两条重要路线:

  1. 生成式 world model(pixel-level)
  2. latent dynamics(抽象状态)

2. PlaNet (Hafner et al., 2019)

核心模型

  • RSSM(Recurrent State Space Model)
    • stochastic + deterministic state

关键突破

  • 可以在 latent space 中进行 planning
  • 不再依赖 pixel reconstruction 做决策

重要意义

👉 world model 首次"能用来控制"

分歧开始出现

  • 控制派:world model 是为了决策
  • 生成派:world model 是为了生成

二、第一次"奏效":Dreamer 系列(2020--2023)

Dreamer / DreamerV2 / DreamerV3

核心思想

  • 在 latent space 中:
    • rollout imagined trajectories
    • 直接训练 policy

关键能力

  • 不依赖真实环境采样
  • sample efficiency 极高

里程碑

👉 在 Atari / DMControl 上达到 SOTA


出现的质疑

  1. world model ≠ 通用智能
  2. 仅适用于:
    • 低复杂度环境
    • 可预测动力学

核心分歧

问题 Dreamer 立场 反对观点
是否需要高保真生成 不需要 diffusion 阵营认为需要
是否需要 pixel-level 不需要 video model 强调需要
泛化能力 可以学到 被广泛质疑

三、分叉:视频生成 vs 控制(2021--2024)


A. 视频生成路线(Scale Up)

代表工作:

  • Video Diffusion Models (2022)
  • Phenaki (2022)
  • Sora (2024)

核心思想

  • world model = 能生成未来视频

强调能力

  • realism(真实感)
  • 长时序一致性

认知改变(关键)

👉 "world model = video model" 开始流行


被质疑的问题

  • 没有 causal understanding
  • 不具备 control 能力
  • 更像"视觉拟合器"

与控制派的核心分歧

问题 视频派 控制派
目标 生成真实世界 支持决策
表征 pixel-level latent
评估 realism reward

B. 控制派强化

MuZero (2020)


核心思想

  • 不预测 observation
  • 只预测:
    • reward
    • value
    • policy

颠覆性观点

👉 不需要建模世界本身


认知冲突

传统 world model MuZero
预测未来状态 不需要
重建 observation 不需要
强调可解释性 不强调

影响

👉 引出:task-oriented world model


四、第二次认知升级:表征才是核心(2022--2024)

JEPA(Joint Embedding Predictive Architecture)


核心思想

  • 不做生成
  • 只预测 representation

核心论断

👉 "生成像素是错误方向"


直接挑战

  • diffusion
  • video generation
  • VAE world model

分歧升级

路线 是否生成像素
diffusion
Dreamer
JEPA 强烈反对

认知改变

  • world model ≠ generative model
  • 强调:
    • abstraction(抽象)
    • invariance(不变性)

五、统一尝试:Foundation World Models(2023--2025)

代表工作:

  • RT-2 (2023)
  • VPT (2022)
  • DriveVLA (2025)

核心思想

  • 使用 Transformer 统一:
    • video
    • action
    • language

👉 world model = sequence model


关键突破

  • 多模态统一建模
  • scaling 带来能力提升

关键问题

  • 缺乏显式:
    • physics
    • causality

路线分歧

路线 是否需要结构
VLA 不需要(end-to-end)
Dreamer 需要(latent dynamics)
JEPA 需要(抽象结构)

六、最新阶段:冲突集中爆发(2024--2026)


冲突1:生成 vs 表征

  • diffusion / video:生成越真实越接近世界
  • JEPA:生成是错误目标

👉 当前趋势:

  • 短期:video scaling 占优
  • 长期:representation 被看好

冲突2:是否需要因果建模

  • Dreamer:隐式学到即可
  • JEPA:必须显式建模

冲突3:是否必须支持控制

观点 代表
必须支持 Dreamer
不需要 Sora
可选 VLA

七、关键认知转折点(最重要)


转折1(2019 PlaNet)

👉 world model 可以直接用于 control


转折2(2020 MuZero)

👉 不需要重建世界


转折3(2022 视频生成)

👉 world model = video model


转折4(2023 JEPA)

👉 world model ≠ generative model


转折5(2023--2025 VLA)

👉 world model = sequence modeling


八、本质分歧(核心总结)

可以归结为三个哲学问题:


1. 世界是否需要"看起来真实"?

  • diffusion:需要
  • Dreamer:不需要
  • JEPA:不需要

2. 世界是否需要"可控"?

  • Dreamer:必须
  • MuZero:部分需要
  • Sora:不需要

3. 世界是否需要"因果结构"?

  • JEPA:必须
  • diffusion:不需要
  • Dreamer:隐式学习

九、一句话总结

World Model 的发展,本质上是三种范式的长期拉扯:

  • 生成派(diffusion / video)

    👉 世界 = 能生成真实未来

  • 控制派(Dreamer / MuZero)

    👉 世界 = 支持决策

  • 表征派(JEPA)

    👉 世界 = 可预测的抽象结构


十、一个更深层的理解(加餐)

如果再往本质压一层:

  • diffusion 在解决:"世界长什么样"
  • Dreamer 在解决:"世界怎么影响决策"
  • JEPA 在解决:"世界的本质结构是什么"

👉 三者其实不是替代关系,而是:

同一个 world model 的三个正交维度


如果你后续在做自动驾驶 / VLA,可以重点思考:

你的 world model,是在做:

  • video prediction?
  • latent planning?
  • 还是 structure learning?

这会直接决定你的模型上限。

相关推荐
贵慜_Derek2 小时前
RAG 检索老翻车?很多时候是切块把话说「半截」
人工智能
zandy10112 小时前
指标管理的AI自治之路:衡石平台如何实现异常检测、血缘分析与智能推荐的自动化治理
运维·人工智能·自动化
曾小蛙2 小时前
【 AI 编程】Claude Code / Codex / Gemini CLI 全方位辅助工具
人工智能·claude·codex·cc-switch
龙文浩_2 小时前
AI机器学习中NumPy随机种子的应用
人工智能·python·深度学习·神经网络·机器学习
AI先驱体验官2 小时前
数字人时代来临:实时互动数字人解决方案深度解析
大数据·网络·人工智能·深度学习·机器学习·重构·实时互动
万里鹏程转瞬至2 小时前
LLM训练基本知识的深入浅出
人工智能·深度学习·aigc
stereohomology2 小时前
无题无题无题无题无题
人工智能·设计·荒诞
大江东去浪淘尽千古风流人物2 小时前
【Basalt】 VIO(sqrt_keypoint_vio)主流程measure函数梳理
数据库·人工智能·python·机器学习·oracle
贵慜_Derek2 小时前
泄露代码里看到的 Claude Code:模块怎么分、数据怎么走
人工智能