自动驾驶 世界模型 有哪些(二)

自动驾驶里的 World Model(世界模型) 是最近 2--3 年非常核心的方向,本质是:

学习一个可以预测"世界如何演化"的模型,让自动驾驶系统不仅看见当前,还能"想象未来"。

简单说:
感知 → 世界模型 → 预测未来 → 规划行为

而不是传统 pipeline:
感知 → 预测 → 规划

世界模型把这些统一起来。emergentmind.com


一、当前主流自动驾驶世界模型(重要论文 / 系统)

我按 工业界 + 学术界 给你列一个比较完整的列表。


1 Wayve:GAIA-1(工业界代表)

公司:Wayve

特点:

  • 90亿参数 generative world model

  • 输入:video + text + action

  • 输出:未来驾驶场景

  • 可生成完整驾驶视频

核心能力:

  • 预测未来交通

  • 生成新的驾驶场景

  • 用作自动驾驶训练 simulator

训练数据:

  • 4700小时真实驾驶数据

Wayve

核心思想:

复制代码
scene_t + action_t → scene_t+1

类似:

复制代码
LLM:token → next token
World model:scene → next scene

2 Waymo:Genie-based World Model

公司:Waymo + DeepMind

能力:

  • 从文本 / 图像生成 可交互3D驾驶世界

  • 自动生成极端场景(龙卷风、火灾等)

  • 用于大规模仿真训练

作用:

  • 解决 rare edge cases

The Verge

换句话说:

复制代码
真实数据 + 生成世界 → 无限训练数据

3 OccWorld(3D Occupancy World Model)

论文:OccWorld

特点:

  • 使用 3D occupancy grid 表达世界

  • Transformer 预测未来 occupancy

  • 同时预测

复制代码
ego trajectory
+
future scene

arXiv

核心结构:

复制代码
3D Occupancy → Scene Tokens → Transformer → Future Occupancy

优势:

  • 比 bounding box 更细粒度

  • 可表达完整空间结构


4 MUVO(Multimodal World Model)

论文:MUVO

特点:

  • camera + lidar 融合

  • voxel spatial representation

  • 预测未来 sensor data

arXiv

核心思想:

复制代码
sensor → unified world representation → future prediction

5 DrivingWorld(Video GPT World Model)

特点:

  • 使用 Video GPT

  • 预测未来 driving video

  • 可以根据车辆动作生成场景

结构:

复制代码
video frames + action
→ autoregressive transformer
→ future frames

Xiaotao Hu


6 HERMES(2025 新模型)

特点:

  • BEV world model

  • 同时做

复制代码
scene understanding
+
scene generation

并且引入

复制代码
LLM + causal attention

用于世界知识推理。

arXiv


二、世界模型的技术路线(非常关键)

目前自动驾驶 world model 大致分 4 个技术路线

类型 表达世界
Image world model 图像预测
BEV world model 鸟瞰图
Occupancy world model 3D占据
Latent world model latent space

emergentmind.com


1 Image world model

直接预测未来图像

例子:

复制代码
DrivingWorld
GAIA-1

优点:

  • 生成真实视频

缺点:

  • 不利于 planning

2 BEV world model

在 BEV 上预测

例子:

复制代码
HERMES
Tesla FSD internal

优点:

  • planning友好

3 Occupancy world model

3D voxel

例子:

复制代码
OccWorld
OccNet系列

优点:

  • 几何精度高

4 Latent world model(最前沿)

类似 MuZero / Dreamer

流程:

复制代码
sensor → latent state

latent + action

→ future latent

latent → decode scene

优点:

  • 高效

  • 可以 RL


三、世界模型完整结构(自动驾驶未来架构)

最理想结构其实是:

复制代码
Sensors

↓

World Encoder

↓

Latent World State

↓

World Model (predict future)

↓

Policy / Planner

↓

Control

数学上:

复制代码
z_t = Encoder(o_t)

z_{t+1} = WorldModel(z_t , a_t)

a_t = Policy(z_t)

这和强化学习 world model 完全一样。


四、为什么世界模型重要

传统自动驾驶:

复制代码
perception

prediction

planning

问题:

  • 信息丢失

  • 模块不一致

  • edge case 多

世界模型:

复制代码
统一世界表示

+

统一未来预测

优势:

1️⃣ 可以 预测未来世界

2️⃣ 可以 生成训练数据

3️⃣ 可以 统一感知+预测+规划


五、现在谁最领先

我给你一个非常真实的判断:

公司 世界模型进度
Wayve 最激进
Waymo simulation最强
Tesla latent BEV
Nvidia DriveSim
OpenDriveLab academic

六、未来自动驾驶架构(极可能)

未来自动驾驶会变成:

复制代码
Foundation Model for Driving

结构:

复制代码
Multimodal Transformer

camera

lidar

map

language

actions

→ unified world model

类似:

复制代码
GPT + Dreamer + MuZero

七、如果你是做机器人算法(你现在做轮臂机器人)

其实 世界模型就是机器人终极架构

机器人未来:

复制代码
Perception → World Model → Policy

这会统一:

  • 自动驾驶

  • 机器人

  • embodied AI


如果你愿意,我可以给你讲一个 非常关键但很多人没看懂的东西

"特斯拉 FSD 的世界模型到底长什么样"

我可以给你画出 FSD / Wayve / Waymo 三种世界模型架构差异图,这个对你理解自动驾驶架构会非常重要。

自动驾驶里的 World Model(世界模型) 是最近 2--3 年非常核心的方向,本质是:

学习一个可以预测"世界如何演化"的模型,让自动驾驶系统不仅看见当前,还能"想象未来"。

简单说:

感知 → 世界模型 → 预测未来 → 规划行为

而不是传统 pipeline:

感知 → 预测 → 规划

世界模型把这些统一起来。

一、当前主流自动驾驶世界模型(重要论文 / 系统)

我按 工业界 + 学术界 给你列一个比较完整的列表。

1 Wayve:GAIA-1(工业界代表)

公司:Wayve

特点:

90亿参数 generative world model

输入:video + text + action

输出:未来驾驶场景

可生成完整驾驶视频

核心能力:

预测未来交通

生成新的驾驶场景

用作自动驾驶训练 simulator

训练数据:

4700小时真实驾驶数据

核心思想:

scene_t + action_t → scene_t+1

类似:

LLM:token → next token

World model:scene → next scene

2 Waymo:Genie-based World Model

公司:Waymo + DeepMind

能力:

从文本 / 图像生成 可交互3D驾驶世界

自动生成极端场景(龙卷风、火灾等)

用于大规模仿真训练

作用:

解决 rare edge cases

换句话说:

真实数据 + 生成世界 → 无限训练数据

3 OccWorld(3D Occupancy World Model)

论文:OccWorld

特点:

使用 3D occupancy grid 表达世界

Transformer 预测未来 occupancy

同时预测

ego trajectory

future scene

核心结构:

3D Occupancy → Scene Tokens → Transformer → Future Occupancy

优势:

比 bounding box 更细粒度

可表达完整空间结构

4 MUVO(Multimodal World Model)

论文:MUVO

特点:

camera + lidar 融合

voxel spatial representation

预测未来 sensor data

核心思想:

sensor → unified world representation → future prediction

5 DrivingWorld(Video GPT World Model)

特点:

使用 Video GPT

预测未来 driving video

可以根据车辆动作生成场景

结构:

video frames + action

→ autoregressive transformer

→ future frames

6 HERMES(2025 新模型)

特点:

BEV world model

同时做

scene understanding

scene generation

并且引入

LLM + causal attention

用于世界知识推理。

二、世界模型的技术路线(非常关键)

目前自动驾驶 world model 大致分 4 个技术路线:

类型 表达世界

Image world model 图像预测

BEV world model 鸟瞰图

Occupancy world model 3D占据

Latent world model latent space

1 Image world model

直接预测未来图像

例子:

DrivingWorld

GAIA-1

优点:

生成真实视频

缺点:

不利于 planning

2 BEV world model

在 BEV 上预测

例子:

HERMES

Tesla FSD internal

优点:

planning友好

3 Occupancy world model

3D voxel

例子:

OccWorld

OccNet系列

优点:

几何精度高

4 Latent world model(最前沿)

类似 MuZero / Dreamer

流程:

sensor → latent state

latent + action

→ future latent

latent → decode scene

优点:

高效

可以 RL

三、世界模型完整结构(自动驾驶未来架构)

最理想结构其实是:

Sensors

World Encoder

Latent World State

World Model (predict future)

Policy / Planner

Control

数学上:

z_t = Encoder(o_t)

z_{t+1} = WorldModel(z_t , a_t)

a_t = Policy(z_t)

这和强化学习 world model 完全一样。

四、为什么世界模型重要

传统自动驾驶:

perception

prediction

planning

问题:

信息丢失

模块不一致

edge case 多

世界模型:

统一世界表示

统一未来预测

优势:

1️⃣ 可以 预测未来世界

2️⃣ 可以 生成训练数据

3️⃣ 可以 统一感知+预测+规划

五、现在谁最领先

我给你一个非常真实的判断:

公司 世界模型进度

Wayve 最激进

Waymo simulation最强

Tesla latent BEV

Nvidia DriveSim

OpenDriveLab academic

六、未来自动驾驶架构(极可能)

未来自动驾驶会变成:

Foundation Model for Driving

结构:

Multimodal Transformer

camera

lidar

map

language

actions

→ unified world model

类似:

GPT + Dreamer + MuZero

七、如果你是做机器人算法(你现在做轮臂机器人)

其实 世界模型就是机器人终极架构。

机器人未来:

Perception → World Model → Policy

这会统一:

自动驾驶

机器人

embodied AI

如果你愿意,我可以给你讲一个 非常关键但很多人没看懂的东西:

"特斯拉 FSD 的世界模型到底长什么样"

我可以给你画出 FSD / Wayve / Waymo 三种世界模型架构差异图,这个对你理解自动驾驶架构会非常重要。

相关推荐
廋到被风吹走15 小时前
【AI】Codex + 后端框架实战:Spring/Express/Django 业务逻辑全自动生成
人工智能·spring·express
蜡笔小马16 小时前
01.[特殊字符] 构建你的第一个 AI 智能体:从 DeepSeek 到结构化对话
人工智能·python·langchain
ai生成式引擎优化技术16 小时前
拓世AI操作系统白皮书(TAIOS)
人工智能
Hy行者勇哥16 小时前
Vibe Coding 详解:Karpathy 氛围编程的概念、原理、5层工作流结构与对比图
人工智能·学习方法
企鹅的蚂蚁16 小时前
【ESP32-S3 深度实战】从小智AI底层移植到自定义LVGL表情:M5Stack CoreS3 避坑与架构指南
人工智能·架构
H Journey16 小时前
opencv之图像轮廓
人工智能·opencv·计算机视觉
冬至喵喵16 小时前
提示工程 × 上下文管理:2025-2026 完整技术全景
人工智能·机器学习
孤岛站岗16 小时前
【AI Agent实战手册】AG13:Agent的边界与风险——自主AI可能带来什么问题
人工智能
人工智能AI技术16 小时前
飞书版ClaudeCode,比龙虾好用多了
人工智能
大嘴皮猴儿16 小时前
AI图片翻译技术解析:以跨马翻译为例看电商图片翻译的实际效果
大数据·数据库·人工智能·自动翻译·教育电商