论文来源 : Understanding World or Predicting Future? A Comprehensive Survey of World Models arXiv编号: 2411.14499v2
作者: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, et al.
发布时间: 2024年11月
目录
1. 概述
1.1 什么是世界模型?
**世界模型(World Models)**是人工智能系统对环境的内部表示或模拟,旨在:
-
理解世界机制:构建内部表示以理解环境的运作规律
-
预测未来状态:预测环境的动态变化以指导决策
1.2 核心问题
论文标题"Understanding World or Predicting Future?"提出了世界模型研究的两个核心问题:
-
理解世界(Understanding World):
-
构建对环境的内部表示
-
理解物理规律和因果关系
-
学习世界的结构和机制
-
-
预测未来(Predicting Future):
-
预测环境的未来状态
-
模拟可能的行动结果
-
支持规划和决策
-
1.3 两大功能分类
根据2024年的综述论文,世界模型可以分为两大主要功能:
| 功能类型 | 目标 | 应用 |
|---|---|---|
| 理解型 | 构建内部表示,理解世界机制 | 知识表示、因果推理、场景理解 |
| 预测型 | 预测未来状态,模拟决策结果 | 强化学习、规划、自动驾驶 |
2. 世界模型的定义
2.1 经典定义
世界模型是智能体(Agent)对环境的内部表示或模拟,用于:
-
预测环境的动态和结果
-
理解环境的结构和规律
-
支持决策和规划
2.2 数学表示
在强化学习框架下,世界模型通常表示为:
s_{t+1} = f(s_t, a_t)
其中:
-
s_t: 当前状态 -
a_t: 当前动作 -
s_{t+1}: 下一状态 -
f: 世界模型(状态转移函数)
2.3 扩展定义
现代世界模型不仅预测状态转移,还包括:
-
观察模型 :
o_t = g(s_t)- 从状态生成观察 -
奖励模型 :
r_t = h(s_t, a_t)- 预测奖励 -
终止模型 :
d_t = k(s_t)- 预测episode是否结束
3. 发展时间线
3.1 早期阶段(1980s-1990s)
1980s: 统计学习方法
时期特点:
-
使用概率模型刻画环境动态
-
应用隐马尔可夫模型(HMM)
-
使用卡尔曼滤波构建内部世界模型
主要挑战:
-
处理高维感知输入时计算量爆炸
-
模型表达能力有限
-
难以处理复杂环境
代表方法:
-
隐马尔可夫模型(HMM)
-
卡尔曼滤波(Kalman Filter)
-
粒子滤波(Particle Filter)
1989: Dyna架构
提出者 : Richard Sutton 贡献: 将强化学习与内部世界概念结合
核心思想:
-
智能体可以在内部模拟环境
-
通过内部模拟进行规划
-
结合真实经验和模拟经验学习
Dyna架构组成:
1. 直接强化学习(Direct RL)
- 从真实环境中学习
2. 模型学习(Model Learning)
- 学习环境模型
3. 规划(Planning)
- 使用模型进行内部模拟
影响:
-
开创了基于模型的强化学习(Model-Based RL)
-
为后续世界模型研究奠定基础
1990: "世界模型"概念提出
提出者 : Jürgen Schmidhuber(尤尔根·施密德胡伯) 时间: 1990年博士论文
核心观点:
-
AI模型应具备对现实世界的全面认知
-
应能模拟未来情景
-
使用循环神经网络(RNN)构建简单世界模型
技术特点:
-
使用RNN建模时序依赖
-
端到端学习
-
压缩表示
3.2 深度学习时代(2010s)
2010s初期: 深度学习引入
技术突破:
-
卷积神经网络(CNN)处理视觉输入
-
循环神经网络(RNN)捕捉时间序列
-
深度神经网络提升表达能力
代表工作:
-
DQN (2013-2015): 虽然是无模型方法,但推动了深度RL发展
-
神经网络动态模型: 使用神经网络学习环境动态
2015-2017: 基于模型的深度强化学习
代表方法:
-
Neural Network Dynamics Models
-
使用深度神经网络学习环境动态
-
结合模型预测控制(MPC)
-
-
Imagination-Augmented Agents (I2A, 2017)
-
使用学习的模型进行"想象"
-
结合无模型和基于模型的方法
-
-
Model-Based Value Expansion (MBVE, 2017)
-
使用模型展开价值估计
-
提高样本效率
-
3.3 现代世界模型时代(2018-2020)
2018: World Models论文(里程碑)
作者 : David Ha & Jürgen Schmidhuber 论文 : "Recurrent World Models Facilitate Policy Evolution" 发表: NeurIPS 2018
核心贡献:
-
VAE-RNN架构:
视觉输入 → VAE编码器 → 潜在表示 → RNN → 预测未来 -
三个组件:
-
V (Vision): VAE编码器,压缩视觉输入
-
M (Memory): MDN-RNN,预测未来潜在状态
-
C (Controller): 简单线性控制器
-
-
训练流程:
步骤1: 收集随机策略数据 步骤2: 训练VAE学习视觉表示 步骤3: 训练RNN学习动态模型 步骤4: 在模型中训练控制器(梦境训练)
关键创新:
-
压缩表示: 使用VAE将高维图像压缩到低维潜在空间
-
梦境训练: 完全在学习的模型中训练策略
-
进化算法: 使用CMA-ES优化控制器
实验结果:
-
在Car Racing游戏中取得优异表现
-
证明了在模型中训练的可行性
-
展示了世界模型的潜力
影响:
-
引发了世界模型研究热潮
-
启发了后续大量工作
-
成为世界模型的经典范式
2019: PlaNet & Dreamer系列开始
PlaNet (2019)
-
作者: Danijar Hafner et al.
-
贡献: 纯粹基于模型的规划方法
-
特点: 在潜在空间中进行规划
Dreamer (2019)
-
作者: Danijar Hafner et al.
-
贡献: 在模型中学习价值函数和策略
-
方法: Actor-Critic在潜在空间中训练
技术特点:
-
RSSM (Recurrent State-Space Model):
确定性路径: h_t = f(h_{t-1}, s_{t-1}, a_{t-1}) 随机路径: s_t ~ p(s_t | h_t) -
结合确定性和随机性
-
更好的长期预测能力
3.4 扩展与应用时代(2020-2023)
2020: Dreamer-V2
改进:
-
离散潜在表示
-
更稳定的训练
-
更好的性能
成果:
-
在Atari游戏上达到人类水平
-
证明了世界模型的强大能力
2021-2022: 多样化发展
1. Transformer-based World Models
-
使用Transformer替代RNN
-
更好的长期依赖建模
-
代表: IRIS (2021), TransDreamer (2022)
2. 视频预测模型
-
直接在像素空间预测
-
更高保真度的预测
-
代表: Video Prediction Models
3. 离线强化学习中的世界模型
-
MBOP (Model-Based Offline Policy Optimization)
-
MOPO (Model-Based Offline Policy Optimization)
-
使用世界模型进行数据增强
4. 大规模世界模型
-
在大规模数据集上预训练
-
迁移到下游任务
-
代表: UniSim (2023)
2023: Dreamer-V3
突破:
-
统一算法,适用于多种任务
-
从视觉输入到连续控制
-
在多个benchmark上SOTA
关键技术:
-
Symlog predictions
-
Free bits
-
Unimix categoricals
3.5 多模态与大模型时代(2024-至今)
2024: 多模态世界模型兴起
背景:
-
大语言模型(LLM)的成功
-
视频生成模型(如Sora)的突破
-
多模态大模型的发展
关键发展:
-
语言模型作为世界模型
-
LLM具有丰富的世界知识
-
可以进行因果推理
-
支持常识推理
-
-
视频生成模型作为世界模型
-
Sora (OpenAI, 2024):
-
生成高质量视频
-
理解物理规律
-
模拟复杂场景
-
-
Genie (Google DeepMind, 2024):
-
从视频学习交互式环境
-
生成可玩的游戏世界
-
-
-
多模态融合
-
结合视觉、语言、动作
-
统一的世界表示
-
更强的泛化能力
-
2024年11月: 综述论文发布
论文 : "Understanding World or Predicting Future? A Comprehensive Survey of World Models" 作者: Jingtao Ding, Yunke Zhang, et al.
主要贡献:
-
系统分类:
-
理解型世界模型
-
预测型世界模型
-
-
应用领域总结:
-
强化学习
-
自动驾驶
-
机器人
-
社会模拟
-
-
未来方向:
-
多模态世界模型
-
可解释性
-
泛化能力
-
长期预测
-
4. 关键技术演进
4.1 表示学习演进
| 时期 | 表示方法 | 特点 | 代表 |
|---|---|---|---|
| 1980s-1990s | 手工特征 | 人工设计,有限表达能力 | HMM, Kalman Filter |
| 2010s初 | 深度特征 | CNN提取视觉特征 | DQN特征 |
| 2018 | VAE潜在空间 | 压缩的连续表示 | World Models |
| 2019-2020 | RSSM | 确定性+随机性 | Dreamer系列 |
| 2020-2022 | 离散潜在表示 | 更稳定的训练 | Dreamer-V2 |
| 2022-2024 | Transformer表示 | 长期依赖 | IRIS, TransDreamer |
| 2024 | 多模态表示 | 视觉+语言+动作 | 多模态世界模型 |
4.2 动态建模演进
阶段1: 概率图模型(1980s-2000s)
HMM: s_t → s_{t+1}
↓
o_t
卡尔曼滤波: s_t = A·s_{t-1} + B·u_t + w_t
o_t = C·s_t + v_t
特点:
-
线性假设
-
高斯噪声
-
解析解
阶段2: 神经网络模型(2010s)
s_{t+1} = NN(s_t, a_t)
特点:
-
非线性
-
端到端学习
-
表达能力强
阶段3: 循环神经网络(2018-2020)
h_t = RNN(h_{t-1}, [z_t, a_t])
z_{t+1} ~ p(z | h_t)
特点:
-
时序建模
-
隐状态
-
长期依赖
阶段4: RSSM(2019-2023)
确定性: h_t = f(h_{t-1}, s_{t-1}, a_{t-1})
随机性: s_t ~ p(s_t | h_t)
特点:
-
结合确定性和随机性
-
更好的预测
-
更稳定的训练
阶段5: Transformer(2022-2024)
s_{1:T} = Transformer([s_0, a_0, ..., a_{T-1}])
特点:
-
全局注意力
-
并行计算
-
长期依赖
4.3 训练方法演进
方法1: 监督学习(早期)
Loss = ||s_{t+1}^pred - s_{t+1}^true||²
特点:
-
简单直接
-
需要真实数据
-
可能累积误差
方法2: 梦境训练(2018)
1. 在真实环境收集数据
2. 训练世界模型
3. 在模型中训练策略
4. 部署到真实环境
特点:
-
样本效率高
-
安全(在模型中训练)
-
依赖模型质量
方法3: Dyna风格(2019-2023)
for each step:
1. 真实环境交互
2. 更新世界模型
3. 在模型中训练策略
4. 更新策略
特点:
-
结合真实和模拟经验
-
持续改进模型
-
更鲁棒
方法4: 对比学习(2023-2024)
Loss = Contrastive(z_t, z_{t+1}^pos, z_{t+1}^neg)
特点:
-
自监督学习
-
更好的表示
-
不需要像素级重构
4.4 规划方法演进
方法1: 模型预测控制(MPC)
for each step:
1. 从当前状态开始
2. 规划H步
3. 执行第一步动作
4. 重新规划
代表: PlaNet (2019)
方法2: 价值函数学习
在模型中学习:
V(s) = E[Σ γ^t r_t | s_0=s]
π(a|s) = argmax Q(s,a)
代表: Dreamer系列
方法3: 蒙特卡洛树搜索(MCTS)
1. Selection
2. Expansion (使用世界模型)
3. Simulation (使用世界模型)
4. Backpropagation
代表: MuZero (2020)
5. 主要研究方向
5.1 基于模型的强化学习(Model-Based RL)
核心思想
使用学习的世界模型来:
-
提高样本效率
-
支持规划
-
减少真实环境交互
主要方法
1. Dyna系列
-
Dyna (1989)
-
Dyna-2 (2008)
-
结合真实和模拟经验
2. World Models系列
-
World Models (2018)
-
PlaNet (2019)
-
Dreamer系列 (2019-2023)
3. MuZero系列
-
MuZero (2020)
-
EfficientZero (2021)
-
学习隐式模型
优势与挑战
优势:
-
✅ 样本效率高
-
✅ 支持规划
-
✅ 可以进行安全探索
挑战:
-
⚠️ 模型误差累积
-
⚠️ 训练不稳定
-
⚠️ 计算开销大
5.2 视频预测(Video Prediction)
目标
从过去的视频帧预测未来的视频帧
关键方法
1. 确定性预测
I_{t+1} = f(I_t, I_{t-1}, ..., a_t)
2. 随机性预测
I_{t+1} ~ p(I_{t+1} | I_t, I_{t-1}, ..., a_t)
3. 潜在空间预测
z_t = Encoder(I_t)
z_{t+1} = f(z_t, a_t)
I_{t+1} = Decoder(z_{t+1})
代表工作
-
SVG (Stochastic Video Generation, 2018)
-
SV2P (Stochastic Variational Video Prediction, 2018)
-
Video Transformer (2021)
-
Diffusion-based Video Prediction (2023-2024)
应用
-
自动驾驶场景预测
-
机器人运动预测
-
视频生成
5.3 多模态世界模型
动机
现实世界是多模态的:
-
视觉信息
-
语言描述
-
动作执行
-
声音反馈
关键方向
1. 语言-视觉世界模型
-
使用语言描述世界状态
-
语言指导的预测
-
代表: LWM (Language World Models, 2024)
2. 视频生成模型作为世界模型
-
Sora (OpenAI, 2024)
-
Genie (Google DeepMind, 2024)
-
生成交互式环境
3. 具身AI世界模型
-
结合视觉、动作、本体感觉
-
支持机器人学习
-
代表: RT-2, PaLM-E
技术挑战
-
多模态对齐
-
统一表示学习
-
跨模态推理
5.4 可解释世界模型
目标
构建可解释的世界表示:
-
理解因果关系
-
发现物理规律
-
支持推理
方法
1. 结构化世界模型
-
对象中心表示
-
关系建模
-
代表: C-SWM (Contrastively-trained Structured World Models)
2. 因果世界模型
-
学习因果图
-
反事实推理
-
代表: Causal World Models
3. 物理先验世界模型
-
嵌入物理约束
-
学习物理规律
-
代表: Physics-Informed World Models
5.5 泛化世界模型
目标
构建能够泛化到新环境的世界模型
方法
1. 元学习
-
快速适应新环境
-
代表: MAML for World Models
2. 预训练-微调
-
大规模预训练
-
下游任务微调
-
代表: UniSim (2023)
3. 领域自适应
-
Sim-to-Real迁移
-
领域不变表示
6. 应用领域
6.1 强化学习
应用方式
-
提高样本效率
-
使用模型生成额外训练数据
-
减少真实环境交互
-
-
支持规划
-
在模型中进行前向搜索
-
评估不同动作序列
-
-
安全探索
-
在模型中探索危险区域
-
避免真实环境中的风险
-
代表应用
-
Atari游戏
-
机器人控制
-
连续控制任务
6.2 自动驾驶
应用场景
1. 场景预测
当前场景 → 世界模型 → 未来场景
2. 规划验证
规划轨迹 → 世界模型模拟 → 安全性评估
3. 数据增强
真实数据 → 世界模型 → 合成场景
关键技术
-
CARLA模拟器: 自动驾驶研究平台
-
NVIDIA Drive Sim: 商业自动驾驶模拟
-
Waymo Open Dataset: 大规模数据集
代表工作
-
World-on-Rails (2021): 基于世界模型的自动驾驶
-
TrafficSim (2021): 交通场景模拟
-
KING (2022): 基于知识的场景生成
6.3 机器人
应用方式
1. 运动规划
-
使用世界模型预测运动结果
-
优化轨迹
2. 操作学习
-
在模型中学习操作策略
-
Sim-to-Real迁移
3. 场景理解
-
理解物体关系
-
预测物体运动
代表工作
-
DayDreamer (2022): 真实机器人上的Dreamer
-
TD-MPC (2022): 基于模型的预测控制
-
RoboDreamer (2024): 机器人世界模型
6.4 社会模拟
应用场景
1. 社会行为预测
-
预测人类行为
-
模拟社会互动
2. 政策评估
-
模拟政策影响
-
评估社会效果
3. 虚拟社会
-
构建虚拟社会环境
-
研究社会现象
代表工作
-
Generative Agents (2023): 使用LLM模拟社会
-
Social Simulacra: 社会模拟平台
6.5 游戏AI
应用
1. 游戏生成
-
Genie (2024): 从视频生成可玩游戏
-
GameGAN: 学习游戏引擎
2. 游戏AI
-
MuZero: 在围棋、象棋等游戏中达到超人水平
-
Agent57: 在Atari游戏中达到人类水平
3. 程序化内容生成
-
使用世界模型生成游戏关卡
-
自动生成游戏内容
7. 未来趋势
7.1 多模态融合
趋势
-
统一的多模态世界表示
-
视觉+语言+动作+声音
-
跨模态推理和生成
关键技术
-
多模态Transformer
-
统一的潜在空间
-
跨模态注意力机制
潜在应用
-
更智能的具身AI
-
更自然的人机交互
-
更强的泛化能力
7.2 大规模预训练
趋势
-
在大规模数据上预训练世界模型
-
迁移到下游任务
-
类似LLM的发展路径
关键挑战
-
数据收集: 需要大规模多样化数据
-
计算资源: 训练成本高
-
评估标准: 如何评估世界模型质量
代表方向
-
UniSim (2023): 通用模拟器
-
Genie (2024): 从互联网视频学习
-
未来的"World Foundation Models"
7.3 物理先验与因果推理
趋势
-
嵌入物理约束
-
学习因果关系
-
支持反事实推理
关键技术
-
物理信息神经网络(PINN)
-
因果发现算法
-
结构化世界表示
应用价值
-
更好的泛化
-
更少的数据需求
-
更可解释的模型
7.4 长期预测
挑战
-
误差累积
-
不确定性增长
-
计算复杂度
解决方向
1. 层次化预测
短期: 详细预测(1-10步)
中期: 抽象预测(10-100步)
长期: 高层预测(100+步)
2. 不确定性量化
-
预测分布而非点估计
-
量化预测置信度
3. 自适应预测
-
根据任务需求调整预测粒度
-
重要区域详细预测
7.5 可解释性与可信度
需求
-
理解模型决策
-
发现学到的知识
-
提高可信度
方法
1. 可视化
-
潜在空间可视化
-
注意力可视化
-
预测过程可视化
2. 概念提取
-
发现学到的概念
-
提取因果关系
-
理解物理规律
3. 形式化验证
-
证明模型性质
-
安全性保证
7.6 高效训练与推理
挑战
-
训练成本高
-
推理速度慢
-
内存占用大
解决方向
1. 模型压缩
-
知识蒸馏
-
剪枝
-
量化
2. 高效架构
-
稀疏Transformer
-
线性注意力
-
状态空间模型(SSM)
3. 硬件加速
-
专用芯片
-
并行计算
-
分布式训练
7.7 Sim-to-Real迁移
目标
将在模拟器中学到的知识迁移到真实世界
关键技术
1. 领域随机化
-
随机化模拟器参数
-
提高鲁棒性
2. 领域自适应
-
学习领域不变特征
-
对齐模拟和真实分布
3. 真实世界微调
-
少量真实数据微调
-
快速适应
7.8 人机协作
应用场景
-
人类专家指导世界模型学习
-
世界模型辅助人类决策
-
人机协同规划
关键技术
-
交互式学习
-
人类反馈强化学习(RLHF)
-
可解释的预测
8. 关键里程碑总结
8.1 理论里程碑
| 年份 | 里程碑 | 贡献 |
|---|---|---|
| 1989 | Dyna架构 | 结合模型学习和规划 |
| 1990 | 世界模型概念 | 提出AI应具备世界认知 |
| 2018 | World Models论文 | VAE-RNN范式,梦境训练 |
| 2019 | Dreamer | 在潜在空间学习价值函数 |
| 2020 | MuZero | 学习隐式模型,围棋超人 |
| 2023 | Dreamer-V3 | 统一算法,多任务SOTA |
| 2024 | 综述论文 | 系统分类,未来方向 |
8.2 技术里程碑
| 技术 | 年份 | 突破 |
|---|---|---|
| VAE | 2013 | 学习潜在表示 |
| RNN/LSTM | 1997/2015 | 时序建模 |
| RSSM | 2019 | 确定性+随机性 |
| Transformer | 2017 | 长期依赖 |
| Diffusion Models | 2020 | 高质量生成 |
| LLM | 2022-2023 | 世界知识 |
| Sora | 2024 | 视频世界模型 |
8.3 应用里程碑
| 领域 | 年份 | 成就 |
|---|---|---|
| 游戏AI | 2020 | MuZero围棋超人 |
| Atari | 2020 | Dreamer-V2人类水平 |
| 机器人 | 2022 | DayDreamer真实机器人 |
| 自动驾驶 | 2021 | World-on-Rails |
| 视频生成 | 2024 | Sora高质量视频 |
| 游戏生成 | 2024 | Genie可玩游戏 |
9. 核心论文列表
9.1 奠基性论文
-
Dyna Architecture (1989)
- Sutton, R. S. (1990). "Integrated architectures for learning, planning, and reacting based on approximating dynamic programming"
-
World Models概念 (1990)
- Schmidhuber, J. (1990). "Making the world differentiable: On using self-supervised fully recurrent neural networks for dynamic reinforcement learning and planning in non-stationary environments"
9.2 现代世界模型
-
World Models (2018) ⭐
-
Ha, D., & Schmidhuber, J. (2018). "Recurrent World Models Facilitate Policy Evolution"
-
NeurIPS 2018
-
-
PlaNet (2019)
-
Hafner, D., et al. (2019). "Learning Latent Dynamics for Planning from Pixels"
-
ICML 2019
-
-
Dreamer (2019) ⭐
-
Hafner, D., et al. (2019). "Dream to Control: Learning Behaviors by Latent Imagination"
-
ICLR 2020
-
-
MuZero (2020) ⭐
-
Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"
-
Nature
-
-
Dreamer-V2 (2020)
-
Hafner, D., et al. (2020). "Mastering Atari with Discrete World Models"
-
ICLR 2021
-
-
Dreamer-V3 (2023) ⭐
-
Hafner, D., et al. (2023). "Mastering Diverse Domains through World Models"
-
arXiv
-
9.3 应用论文
-
DayDreamer (2022)
-
Wu, P., et al. (2022). "DayDreamer: World Models for Physical Robot Learning"
-
CoRL 2022
-
-
TD-MPC (2022)
-
Hansen, N., et al. (2022). "Temporal Difference Learning for Model Predictive Control"
-
ICML 2022
-
-
UniSim (2023)
-
Yang, M., et al. (2023). "Learning Interactive Real-World Simulators"
-
ICLR 2024
-
9.4 多模态世界模型
-
Genie (2024)
-
Bruce, J., et al. (2024). "Genie: Generative Interactive Environments"
-
ICML 2024
-
-
Sora (2024)
-
OpenAI (2024). "Sora: Creating video from text"
-
Technical Report
-
-
RoboDreamer (2024)
-
Zhou, Y., et al. (2024). "RoboDreamer: Learning Compositional World Models for Robot Imagination"
-
arXiv
-
9.5 综述论文
-
World Models Survey (2024) ⭐⭐⭐
-
Ding, J., Zhang, Y., et al. (2024). "Understanding World or Predicting Future? A Comprehensive Survey of World Models"
-
arXiv:2411.14499
-
10. 关键概念术语表
10.1 基础概念
-
世界模型(World Model): 智能体对环境的内部表示或模拟
-
状态空间(State Space): 所有可能状态的集合
-
动作空间(Action Space): 所有可能动作的集合
-
状态转移(State Transition): 从一个状态到另一个状态的变化
-
潜在空间(Latent Space): 压缩的低维表示空间
10.2 模型类型
-
前向模型(Forward Model): 预测下一状态 s_{t+1} = f(s_t, a_t)
-
逆向模型(Inverse Model): 预测动作 a_t = f(s_t, s_{t+1})
-
隐式模型(Implicit Model): 不显式预测状态,而是预测价值或策略
-
显式模型(Explicit Model): 显式预测状态
10.3 训练方法
-
监督学习(Supervised Learning): 使用标注数据训练
-
自监督学习(Self-Supervised Learning): 从数据本身学习
-
梦境训练(Dreaming): 在模型中训练策略
-
Dyna风格(Dyna-style): 结合真实和模拟经验
10.4 架构组件
-
VAE(Variational Autoencoder): 变分自编码器
-
RNN(Recurrent Neural Network): 循环神经网络
-
RSSM(Recurrent State-Space Model): 循环状态空间模型
-
MDN(Mixture Density Network): 混合密度网络
-
Transformer: 基于注意力的架构
10.5 应用相关
-
MPC(Model Predictive Control): 模型预测控制
-
MCTS(Monte Carlo Tree Search): 蒙特卡洛树搜索
-
Sim-to-Real: 从模拟到真实的迁移
-
具身AI(Embodied AI): 具有物理身体的AI系统
11. 发展脉络图
11.1 时间线图
1980s-1990s: 概率模型时代
├─ HMM, Kalman Filter
├─ 1989: Dyna架构
└─ 1990: 世界模型概念
2010s: 深度学习时代
├─ 2013: VAE
├─ 2015: DQN
└─ 2017: I2A, MBVE
2018-2020: 现代世界模型时代
├─ 2018: World Models ⭐
├─ 2019: PlaNet, Dreamer ⭐
└─ 2020: MuZero, Dreamer-V2 ⭐
2021-2023: 扩展与应用时代
├─ 2021: IRIS, TransDreamer
├─ 2022: DayDreamer, TD-MPC
└─ 2023: Dreamer-V3, UniSim ⭐
2024-现在: 多模态与大模型时代
├─ 2024: Sora, Genie ⭐
├─ 2024: RoboDreamer
└─ 2024: 综述论文 ⭐⭐⭐
11.2 技术演进图
表示学习:
手工特征 → CNN特征 → VAE潜在空间 → RSSM → Transformer → 多模态表示
动态建模:
HMM → 神经网络 → RNN → RSSM → Transformer → 扩散模型
训练方法:
监督学习 → 梦境训练 → Dyna风格 → 对比学习 → 多模态预训练
规划方法:
MPC → 价值函数学习 → MCTS → 层次化规划
11.3 应用领域图
世界模型
├─ 强化学习
│ ├─ Atari游戏
│ ├─ 连续控制
│ └─ 多任务学习
│
├─ 自动驾驶
│ ├─ 场景预测
│ ├─ 规划验证
│ └─ 数据增强
│
├─ 机器人
│ ├─ 运动规划
│ ├─ 操作学习
│ └─ 场景理解
│
├─ 游戏AI
│ ├─ 游戏生成
│ ├─ 游戏AI
│ └─ 内容生成
│
└─ 社会模拟
├─ 行为预测
├─ 政策评估
└─ 虚拟社会
12. 总结与展望
12.1 发展总结
世界模型的发展经历了以下几个关键阶段:
-
奠基期(1980s-1990s):
-
概率模型和统计方法
-
Dyna架构和世界模型概念的提出
-
为后续发展奠定理论基础
-
-
深度学习期(2010s):
-
深度神经网络的引入
-
表达能力大幅提升
-
开始处理高维感知输入
-
-
现代世界模型期(2018-2020):
-
World Models论文开创新范式
-
Dreamer系列确立主流方法
-
MuZero展示隐式模型潜力
-
-
扩展应用期(2021-2023):
-
多样化的架构和方法
-
在多个领域取得突破
-
向真实世界应用迈进
-
-
多模态大模型期(2024-现在):
-
多模态融合
-
大规模预训练
-
向通用世界模型发展
-
12.2 核心洞察
1. 两大核心功能:
-
理解世界(Understanding):构建内部表示,理解机制
-
预测未来(Predicting):预测状态,指导决策
2. 关键技术要素:
-
表示学习:如何压缩和表示世界
-
动态建模:如何预测世界变化
-
规划决策:如何利用模型做决策
3. 主要挑战:
-
模型误差累积
-
长期预测困难
-
泛化能力有限
-
计算成本高
12.3 未来展望
短期(1-2年):
-
多模态世界模型的成熟
-
大规模预训练世界模型
-
在机器人和自动驾驶中的应用
中期(3-5年):
-
通用世界模型的出现
-
Sim-to-Real的突破
-
物理先验和因果推理的融合
长期(5-10年):
-
接近人类水平的世界理解
-
真正的具身智能
-
世界模型成为AI的核心组件
12.4 关键问题
1. 理解 vs 预测:
-
是否需要理解世界才能预测?
-
还是只需要预测就足够?
-
两者如何平衡?
2. 显式 vs 隐式:
-
显式预测状态(Dreamer)
-
隐式预测价值(MuZero)
-
哪种更好?
3. 模型 vs 无模型:
-
基于模型的方法
-
无模型的方法
-
如何结合?
4. 通用 vs 专用:
-
通用世界模型
-
任务特定模型
-
如何权衡?
12.5 研究机会
1. 理论方向:
-
世界模型的理论基础
-
泛化能力的理论保证
-
长期预测的理论限制
2. 技术方向:
-
更高效的架构
-
更好的训练方法
-
更强的泛化能力
3. 应用方向:
-
真实世界机器人
-
自动驾驶
-
具身智能
4. 跨学科方向:
-
认知科学
-
神经科学
-
物理学
13. 参考资源
13.1 重要论文
见第9节"核心论文列表"
13.2 代码资源
1. World Models
2. Dreamer系列
-
Dreamer: https://github.com/danijar/dreamer
-
Dreamer-V2: https://github.com/danijar/dreamerv2
-
Dreamer-V3: https://github.com/danijar/dreamerv3
3. MuZero
4. 其他资源
13.3 教程与课程
1. 在线课程
-
CS285 (UC Berkeley): Deep Reinforcement Learning
-
CS330 (Stanford): Deep Multi-Task and Meta Learning
2. 博客文章
-
World Models Blog: https://worldmodels.github.io/
-
Danijar Hafner's Blog: https://danijar.com/
3. 视频讲座
-
David Ha's Talk on World Models
-
Danijar Hafner's Talk on Dreamer
13.4 研究团队
1. 学术团队
-
Google DeepMind
-
UC Berkeley RL Lab
-
Stanford AI Lab
-
MIT CSAIL
2. 工业团队
-
OpenAI
-
Google Brain
-
Meta AI
-
NVIDIA Research
附录:论文元信息
论文标题
英文: Understanding World or Predicting Future? A Comprehensive Survey of World Models
中文: 理解世界还是预测未来?世界模型的综合综述
作者信息
主要作者:
-
Jingtao Ding (丁景涛)
-
Yunke Zhang (张云可)
-
Yu Shang (尚宇)
-
Yuheng Zhang (张宇恒)
-
et al.
发布信息
-
arXiv编号: 2411.14499
-
版本: v2
-
发布时间: 2024年11月
-
更新时间: 2025年6月26日(根据PDF元数据)
关键词
-
World model
-
Model-based RL
-
Video generation
-
Embodied environment
-
Autonomous driving
-
Robots
-
Social simulacra
论文贡献
-
系统分类:将世界模型分为理解型和预测型两大类
-
全面综述:覆盖世界模型的历史、现状和未来
-
应用总结:总结世界模型在多个领域的应用
-
未来方向:指出世界模型研究的未来方向