李飞飞最新论文深度解读：从语言到世界，空间智能将重写AI的未来十年

【前言】如果说大语言模型点燃了人工智能的"语言革命"，那么李飞飞最新发表的长文则试图回答一个更深层的问题：真正的智能是否必须扎根于空间与物理世界？

图 | 李飞飞（来源：World Labs）

在这篇被称为"World Models 研究路线图"的文章中，她不仅提出了空间智能的理论框架，更给出了具体的技术方向与实现路径，清晰勾勒出AI 下一个十年的主航道。

而就在这股浪潮中，我们也尝试用 Marble 构建了一个小而真实的样本：一个完全由AI生成、可漫游的"蘑菇屋3D场景Demo"。这个Demo虽小，却恰好体现了世界模型的力量------AI 正在从语言迈向空间。

世界模型---蘑菇屋3D Demo

一、语言模型走到了极限------AI 需要一双"看世界的眼睛"

李飞飞开篇指出当今 AI 的核心矛盾：LLM 很会"说话"，但不会"理解世界"。它们能写小说，却不知道一把椅子转90度后会变成什么样；能生成漂亮的文章，却无法判断两个物体之间的距离。

换句话说，今天的 AI 更像是"经验缺失的文字匠"------聪明，却没有身体；博学，却没有空间直觉。

而真正的智能，必须能回答这些问题：

复制代码

桌子和灯之间相隔多少？

杯子倒下后会往哪滚？

两个物体会不会相撞？

这个房间能不能再放下一张床？

这些能力不是语言，而是空间智能。

二、空间智能：人类心智的隐形操作系统

李飞飞提出一个关键观点：空间智能是人类认知的底层操作系统。

孩子在会说话前，就能理解"物体不会凭空消失"；成年人在走路时，不会每一步都计算角度和速度；驾驶员能凭直觉判断车距。这种能力支撑着人类的所有高级认知：

复制代码

对世界的理解

对风险的预测

对行为的规划

对想象力的构建

而今天的 AI，仍然缺少这一部分。

三、答案不是更大的 LLM，而是"世界模型"（World Models）

李飞飞提出 AI 的下一阶段不是 GPT-6、GPT-7，而是：世界模型（World Models），一个能理解、生成、预测、操控空间世界的"空间大脑"。

它包含三项核心能力：

01、生成性：能构建一个一致的世界

不仅是图像，而是完整的 3D 结构、物理逻辑和动态变化。

02、多模态：能从更多输入理解世界

图像、深度、视频、动作、触觉、文本指令......

03、交互性：能在世界中行动

预测动作效果，形成观察---推理---行动闭环。

如果 LLM 是"文字生成器"，那么世界模型就是"空间逻辑生成器"。

图｜World Labs创始人团队，左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞（来源：World Labs）

四、技术路线：如何真正构建世界模型？

李飞飞提出未来五年的三大攻坚方向：

01、寻找统一的世界建模任务函数

就像语言模型预测下一个 token，世界模型需要一个能统一几何、物理、语义、动态的预测目标。这是最深的科学难题。

02、规模化的空间数据训练

海量视频、深度、点云、3D扫描、触觉数据......

核心突破是让 AI 从 2D 像素中恢复 3D 世界结构。

03、全新的空间架构设计

需要新的 3D token、显式空间记忆、连续世界状态网络，以及近期出现的 RTFM（保持时空一致性的视频生成框架）。

世界模型不是 LLM 的补丁，而是新的 AI 物种。

五、构建"小世界"：用Marble生成的"蘑菇屋3D Demo"

在这场"从语言到世界"的技术迁移中，我们也做了一次小小的尝试。

基于 Marble，我们制作了一个完全由世界模型生成、可漫游的蘑菇屋3D场景 Demo：

复制代码

输入一句自然语言描述

复制代码

Marble自动生成场景中的地形、房体结构、材质

支持从第一视角自由走动

光照、阴影、空间结构保持一致

场景内部的石板路、树木及房屋都具有可辨识的三维关系

更重要的是，这个 Demo 不仅是"渲染的画面"，而是一个可以进入、可以理解、可以探索的空间世界。

但真正让人感到"世界模型的力量"的，并不仅是一个可爱的蘑菇外形。我们在蘑菇屋内部嵌入了两个截然不同的空间：一个是紧凑但完整的现代化一居室酒店房间，另一个则是光影与色彩丰富的迷你游戏厅。两个空间并非简单拼贴，而是由 Marble 在同一世界坐标系中完成：

复制代码

一居室中的床、书桌、洗浴间被自然地安置在空间结构内；

游戏厅里的街机设备、灯箱、座椅也自动保持正确的尺度、距离和遮挡关系；

跨空间的光影渲染保持连续；

行走路径、空间逻辑、房间连接全部由模型自洽生成。

世界模型---蘑菇屋3D Demo

整个体验过程不像浏览一段渲染动画，更像是亲自走进了一座真实存在的小世界。

如果说图像生成是"拍一张照片"，那么 Marble 更像是"搭建一个真实存在的地方"。这个小小的蘑菇屋，让人第一次直观感受到：AI 正在从表达信息，走向生成世界本身。

这正是李飞飞论文所强调的未来方向。

六、未来：空间智能将改变五大领域

李飞飞将世界模型的应用归纳为三个阶段。

01、短期：内容生产的空间化

游戏、动画、建筑、工业设计、虚拟世界创作。

未来的创作者将从"画画"变成"造世界"。

02、中期：机器人与具身智能的突破

世界模型将成机器人"认知层"的核心。

它让机器人第一次真正理解现实中的空间结构。

03、长期：科学研究的重新定义

药物空间结构推理、材料探索、气候模拟、复杂系统预测......

世界模型可能成为科学家的"智能显微镜"。

七、AI 的未来不是取代人，而是扩展人类能力

李飞飞在论文最后写道：AI 的使命不是替代，而是增强人类。

世界模型将让 AI 从"会说话"走向"会理解世界"。

它会成为：

复制代码

科学家的模拟器

创作者的虚拟工作室

城市的空间大脑

机器人的世界观

当 AI 终于拥有了空间智能，人类也将拥有新的工具去理解世界、创造世界。

而今天我们搭建的这间蘑菇屋，也许只是未来万千虚拟世界中的一个原点。