【前言】如果说大语言模型点燃了人工智能的"语言革命",那么李飞飞最新发表的长文则试图回答一个更深层的问题:真正的智能是否必须扎根于空间与物理世界?

图 | 李飞飞(来源:World Labs)
在这篇被称为"World Models 研究路线图"的文章中,她不仅提出了空间智能的理论框架,更给出了具体的技术方向与实现路径,清晰勾勒出AI 下一个十年的主航道。

而就在这股浪潮中,我们也尝试用 Marble 构建了一个小而真实的样本:一个完全由AI生成、可漫游的"蘑菇屋3D场景Demo"。这个Demo虽小,却恰好体现了世界模型的力量------AI 正在从语言迈向空间。
世界模型---蘑菇屋3D Demo
一、语言模型走到了极限------AI 需要一双"看世界的眼睛"
李飞飞开篇指出当今 AI 的核心矛盾:LLM 很会"说话",但不会"理解世界"。它们能写小说,却不知道一把椅子转90度后会变成什么样;能生成漂亮的文章,却无法判断两个物体之间的距离。
换句话说,今天的 AI 更像是"经验缺失的文字匠"------聪明,却没有身体;博学,却没有空间直觉。
而真正的智能,必须能回答这些问题:
桌子和灯之间相隔多少?
杯子倒下后会往哪滚?
两个物体会不会相撞?
这个房间能不能再放下一张床?
这些能力不是语言,而是空间智能。
二、空间智能:人类心智的隐形操作系统
李飞飞提出一个关键观点:空间智能是人类认知的底层操作系统。
孩子在会说话前,就能理解"物体不会凭空消失";成年人在走路时,不会每一步都计算角度和速度;驾驶员能凭直觉判断车距。这种能力支撑着人类的所有高级认知:
对世界的理解
对风险的预测
对行为的规划
对想象力的构建
而今天的 AI,仍然缺少这一部分。
三、答案不是更大的 LLM,而是"世界模型"(World Models)
李飞飞提出 AI 的下一阶段不是 GPT-6、GPT-7,而是:世界模型(World Models),一个能理解、生成、预测、操控空间世界的"空间大脑"。
它包含三项核心能力:
01、生成性:能构建一个一致的世界
不仅是图像,而是完整的 3D 结构、物理逻辑和动态变化。
02、多模态:能从更多输入理解世界
图像、深度、视频、动作、触觉、文本指令......
03、交互性:能在世界中行动
预测动作效果,形成观察---推理---行动闭环。
如果 LLM 是"文字生成器",那么世界模型就是"空间逻辑生成器"。

图|World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞(来源:World Labs)
四、技术路线:如何真正构建世界模型?
李飞飞提出未来五年的三大攻坚方向:
01、寻找统一的世界建模任务函数
就像语言模型预测下一个 token,世界模型需要一个能统一几何、物理、语义、动态的预测目标。这是最深的科学难题。
02、规模化的空间数据训练
海量视频、深度、点云、3D扫描、触觉数据......
核心突破是让 AI 从 2D 像素中恢复 3D 世界结构。
03、全新的空间架构设计
需要新的 3D token、显式空间记忆、连续世界状态网络,以及近期出现的 RTFM(保持时空一致性的视频生成框架)。
世界模型不是 LLM 的补丁,而是新的 AI 物种。
五、构建"小世界":用Marble生成的"蘑菇屋3D Demo"
在这场"从语言到世界"的技术迁移中,我们也做了一次小小的尝试。
基于 Marble,我们制作了一个完全由世界模型生成、可漫游的蘑菇屋3D场景 Demo:
输入一句自然语言描述

Marble自动生成场景中的地形、房体结构、材质
支持从第一视角自由走动
光照、阴影、空间结构保持一致
场景内部的石板路、树木及房屋都具有可辨识的三维关系
更重要的是,这个 Demo 不仅是"渲染的画面",而是一个 可以进入、可以理解、可以探索的空间世界。
但真正让人感到"世界模型的力量"的,并不仅是一个可爱的蘑菇外形。我们在蘑菇屋内部嵌入了两个截然不同的空间:一个是紧凑但完整的现代化一居室酒店房间,另一个则是光影与色彩丰富的迷你游戏厅。两个空间并非简单拼贴,而是由 Marble 在同一世界坐标系中完成:
一居室中的床、书桌、洗浴间被自然地安置在空间结构内;
游戏厅里的街机设备、灯箱、座椅也自动保持正确的尺度、距离和遮挡关系;
跨空间的光影渲染保持连续;
行走路径、空间逻辑、房间连接全部由模型自洽生成。
世界模型---蘑菇屋3D Demo
整个体验过程不像浏览一段渲染动画,更像是亲自走进了一座真实存在的小世界。
如果说图像生成是"拍一张照片",那么 Marble 更像是"搭建一个真实存在的地方"。这个小小的蘑菇屋,让人第一次直观感受到:AI 正在从表达信息,走向生成世界本身。
这正是李飞飞论文所强调的未来方向。
六、未来:空间智能将改变五大领域
李飞飞将世界模型的应用归纳为三个阶段。
01、短期:内容生产的空间化
游戏、动画、建筑、工业设计、虚拟世界创作。
未来的创作者将从"画画"变成"造世界"。
02、中期:机器人与具身智能的突破
世界模型将成机器人"认知层"的核心。
它让机器人第一次真正理解现实中的空间结构。
03、长期:科学研究的重新定义
药物空间结构推理、材料探索、气候模拟、复杂系统预测......
世界模型可能成为科学家的"智能显微镜"。
七、AI 的未来不是取代人,而是扩展人类能力
李飞飞在论文最后写道:AI 的使命不是替代,而是增强人类。
世界模型将让 AI 从"会说话"走向"会理解世界"。
它会成为:
科学家的模拟器
创作者的虚拟工作室
城市的空间大脑
机器人的世界观
当 AI 终于拥有了空间智能,人类也将拥有新的工具去理解世界、创造世界。
而今天我们搭建的这间蘑菇屋,也许只是未来万千虚拟世界中的一个原点。