World Model 发展,从生成、控制到表征的范式之争

一、起点:表征学习 vs 可预测世界(2018--2019)

1. World Models (Ha & Schmidhuber, 2018)

核心结构

  • VAE(表征学习)
  • MDN-RNN(动力学建模)
  • Controller(决策)

关键思想

  • 在 latent 空间中建模世界
  • 通过 imagination(想象)进行决策

贡献

  • 首次明确提出:world model = latent dynamics
  • 强调:预测未来 ≠ 理解世界

问题

  • 预测模糊,长期不稳定
  • 强依赖 pixel reconstruction

影响

开启两条重要路线:

  1. 生成式 world model(pixel-level)
  2. latent dynamics(抽象状态)

2. PlaNet (Hafner et al., 2019)

核心模型

  • RSSM(Recurrent State Space Model)
    • stochastic + deterministic state

关键突破

  • 可以在 latent space 中进行 planning
  • 不再依赖 pixel reconstruction 做决策

重要意义

👉 world model 首次"能用来控制"

分歧开始出现

  • 控制派:world model 是为了决策
  • 生成派:world model 是为了生成

二、第一次"奏效":Dreamer 系列(2020--2023)

Dreamer / DreamerV2 / DreamerV3

核心思想

  • 在 latent space 中:
    • rollout imagined trajectories
    • 直接训练 policy

关键能力

  • 不依赖真实环境采样
  • sample efficiency 极高

里程碑

👉 在 Atari / DMControl 上达到 SOTA


出现的质疑

  1. world model ≠ 通用智能
  2. 仅适用于:
    • 低复杂度环境
    • 可预测动力学

核心分歧

问题 Dreamer 立场 反对观点
是否需要高保真生成 不需要 diffusion 阵营认为需要
是否需要 pixel-level 不需要 video model 强调需要
泛化能力 可以学到 被广泛质疑

三、分叉:视频生成 vs 控制(2021--2024)


A. 视频生成路线(Scale Up)

代表工作:

  • Video Diffusion Models (2022)
  • Phenaki (2022)
  • Sora (2024)

核心思想

  • world model = 能生成未来视频

强调能力

  • realism(真实感)
  • 长时序一致性

认知改变(关键)

👉 "world model = video model" 开始流行


被质疑的问题

  • 没有 causal understanding
  • 不具备 control 能力
  • 更像"视觉拟合器"

与控制派的核心分歧

问题 视频派 控制派
目标 生成真实世界 支持决策
表征 pixel-level latent
评估 realism reward

B. 控制派强化

MuZero (2020)


核心思想

  • 不预测 observation
  • 只预测:
    • reward
    • value
    • policy

颠覆性观点

👉 不需要建模世界本身


认知冲突

传统 world model MuZero
预测未来状态 不需要
重建 observation 不需要
强调可解释性 不强调

影响

👉 引出:task-oriented world model


四、第二次认知升级:表征才是核心(2022--2024)

JEPA(Joint Embedding Predictive Architecture)


核心思想

  • 不做生成
  • 只预测 representation

核心论断

👉 "生成像素是错误方向"


直接挑战

  • diffusion
  • video generation
  • VAE world model

分歧升级

路线 是否生成像素
diffusion
Dreamer
JEPA 强烈反对

认知改变

  • world model ≠ generative model
  • 强调:
    • abstraction(抽象)
    • invariance(不变性)

五、统一尝试:Foundation World Models(2023--2025)

代表工作:

  • RT-2 (2023)
  • VPT (2022)
  • DriveVLA (2025)

核心思想

  • 使用 Transformer 统一:
    • video
    • action
    • language

👉 world model = sequence model


关键突破

  • 多模态统一建模
  • scaling 带来能力提升

关键问题

  • 缺乏显式:
    • physics
    • causality

路线分歧

路线 是否需要结构
VLA 不需要(end-to-end)
Dreamer 需要(latent dynamics)
JEPA 需要(抽象结构)

六、最新阶段:冲突集中爆发(2024--2026)


冲突1:生成 vs 表征

  • diffusion / video:生成越真实越接近世界
  • JEPA:生成是错误目标

👉 当前趋势:

  • 短期:video scaling 占优
  • 长期:representation 被看好

冲突2:是否需要因果建模

  • Dreamer:隐式学到即可
  • JEPA:必须显式建模

冲突3:是否必须支持控制

观点 代表
必须支持 Dreamer
不需要 Sora
可选 VLA

七、关键认知转折点(最重要)


转折1(2019 PlaNet)

👉 world model 可以直接用于 control


转折2(2020 MuZero)

👉 不需要重建世界


转折3(2022 视频生成)

👉 world model = video model


转折4(2023 JEPA)

👉 world model ≠ generative model


转折5(2023--2025 VLA)

👉 world model = sequence modeling


八、本质分歧(核心总结)

可以归结为三个哲学问题:


1. 世界是否需要"看起来真实"?

  • diffusion:需要
  • Dreamer:不需要
  • JEPA:不需要

2. 世界是否需要"可控"?

  • Dreamer:必须
  • MuZero:部分需要
  • Sora:不需要

3. 世界是否需要"因果结构"?

  • JEPA:必须
  • diffusion:不需要
  • Dreamer:隐式学习

九、一句话总结

World Model 的发展,本质上是三种范式的长期拉扯:

  • 生成派(diffusion / video)

    👉 世界 = 能生成真实未来

  • 控制派(Dreamer / MuZero)

    👉 世界 = 支持决策

  • 表征派(JEPA)

    👉 世界 = 可预测的抽象结构


十、一个更深层的理解(加餐)

如果再往本质压一层:

  • diffusion 在解决:"世界长什么样"
  • Dreamer 在解决:"世界怎么影响决策"
  • JEPA 在解决:"世界的本质结构是什么"

👉 三者其实不是替代关系,而是:

同一个 world model 的三个正交维度


如果你后续在做自动驾驶 / VLA,可以重点思考:

你的 world model,是在做:

  • video prediction?
  • latent planning?
  • 还是 structure learning?

这会直接决定你的模型上限。

相关推荐
devpotato6 分钟前
人工智能(十六)- SSE 流式:让 Agent 像 ChatGPT 一样“边想边说“
人工智能·语言模型·langchain
深度智能Ai8 分钟前
云声配音(MelodyCloud Studio):AI驱动的全链路音视频创作平台
人工智能·音视频
边缘计算社区15 分钟前
物理 AI 为什么离不开边缘计算?
人工智能·边缘计算
宝贝儿好34 分钟前
【LLM】第三章:项目实操案例:智能输入法项目
人工智能·python·深度学习·算法·机器人
AI创界者1 小时前
【首发】LTX-2.3-10Eros 视频生成本地化部署教程:8G显存流畅运行,支持RTX 50系列(附一键整合包)
人工智能
Elastic 中国社区官方博客1 小时前
Elastic 的 AI agent skills
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
容智信息1 小时前
AI Agent(智能体)的输出格式应该从 Markdown 转向 HTML吗?
前端·人工智能·rust·编辑器·html·prompt
学习论之费曼学习法1 小时前
AI 入门 30 天挑战 - Day 28 - 前沿技术概览
人工智能
陕西字符1 小时前
2026 西安小微企业地图与 AI 问答排名优化:专业技术指南与落地方案
大数据·人工智能
TENSORTEC腾视科技1 小时前
腾视科技AI大模型应用:提效、破局与落地,重塑智能新生态
人工智能·科技·安全·ai·ai大模型·无人叉车及智能调度系统解决方案