李飞飞最新论文深度解读:从语言到世界,空间智能将重写AI的未来十年

【前言】如果说大语言模型点燃了人工智能的"语言革命",那么李飞飞最新发表的长文则试图回答一个更深层的问题:真正的智能是否必须扎根于空间与物理世界?

图 | 李飞飞(来源:World Labs)

在这篇被称为"World Models 研究路线图"的文章中,她不仅提出了空间智能的理论框架,更给出了具体的技术方向与实现路径,清晰勾勒出AI 下一个十年的主航道。

而就在这股浪潮中,我们也尝试用 Marble 构建了一个小而真实的样本:一个完全由AI生成、可漫游的"蘑菇屋3D场景Demo"。这个Demo虽小,却恰好体现了世界模型的力量------AI 正在从语言迈向空间。

世界模型---蘑菇屋3D Demo

一、语言模型走到了极限------AI 需要一双"看世界的眼睛"

李飞飞开篇指出当今 AI 的核心矛盾:LLM 很会"说话",但不会"理解世界"。它们能写小说,却不知道一把椅子转90度后会变成什么样;能生成漂亮的文章,却无法判断两个物体之间的距离。

换句话说,今天的 AI 更像是"经验缺失的文字匠"------聪明,却没有身体;博学,却没有空间直觉。

而真正的智能,必须能回答这些问题:

复制代码
桌子和灯之间相隔多少?

杯子倒下后会往哪滚?

两个物体会不会相撞?

这个房间能不能再放下一张床?

这些能力不是语言,而是空间智能。

二、空间智能:人类心智的隐形操作系统

李飞飞提出一个关键观点:空间智能是人类认知的底层操作系统。

孩子在会说话前,就能理解"物体不会凭空消失";成年人在走路时,不会每一步都计算角度和速度;驾驶员能凭直觉判断车距。这种能力支撑着人类的所有高级认知:

复制代码
对世界的理解

对风险的预测

对行为的规划

对想象力的构建

而今天的 AI,仍然缺少这一部分。

三、答案不是更大的 LLM,而是"世界模型"(World Models)

李飞飞提出 AI 的下一阶段不是 GPT-6、GPT-7,而是:世界模型(World Models),一个能理解、生成、预测、操控空间世界的"空间大脑"。

它包含三项核心能力:

01、生成性:能构建一个一致的世界

不仅是图像,而是完整的 3D 结构、物理逻辑和动态变化。

02、多模态:能从更多输入理解世界

图像、深度、视频、动作、触觉、文本指令......

03、交互性:能在世界中行动

预测动作效果,形成观察---推理---行动闭环。

如果 LLM 是"文字生成器",那么世界模型就是"空间逻辑生成器"。

图|World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞(来源:World Labs)

四、技术路线:如何真正构建世界模型?

李飞飞提出未来五年的三大攻坚方向:

01、寻找统一的世界建模任务函数

就像语言模型预测下一个 token,世界模型需要一个能统一几何、物理、语义、动态的预测目标。这是最深的科学难题。

02、规模化的空间数据训练

海量视频、深度、点云、3D扫描、触觉数据......

核心突破是让 AI 从 2D 像素中恢复 3D 世界结构。

03、全新的空间架构设计

需要新的 3D token、显式空间记忆、连续世界状态网络,以及近期出现的 RTFM(保持时空一致性的视频生成框架)。

世界模型不是 LLM 的补丁,而是新的 AI 物种。

五、构建"小世界":用Marble生成的"蘑菇屋3D Demo"

在这场"从语言到世界"的技术迁移中,我们也做了一次小小的尝试。

基于 Marble,我们制作了一个完全由世界模型生成、可漫游的蘑菇屋3D场景 Demo:

复制代码
输入一句自然语言描述
复制代码
Marble自动生成场景中的地形、房体结构、材质

支持从第一视角自由走动

光照、阴影、空间结构保持一致

场景内部的石板路、树木及房屋都具有可辨识的三维关系

更重要的是,这个 Demo 不仅是"渲染的画面",而是一个 可以进入、可以理解、可以探索的空间世界。

但真正让人感到"世界模型的力量"的,并不仅是一个可爱的蘑菇外形。我们在蘑菇屋内部嵌入了两个截然不同的空间:一个是紧凑但完整的现代化一居室酒店房间,另一个则是光影与色彩丰富的迷你游戏厅。两个空间并非简单拼贴,而是由 Marble 在同一世界坐标系中完成:

复制代码
一居室中的床、书桌、洗浴间被自然地安置在空间结构内;

游戏厅里的街机设备、灯箱、座椅也自动保持正确的尺度、距离和遮挡关系;

跨空间的光影渲染保持连续;

行走路径、空间逻辑、房间连接全部由模型自洽生成。

世界模型---蘑菇屋3D Demo

整个体验过程不像浏览一段渲染动画,更像是亲自走进了一座真实存在的小世界。

如果说图像生成是"拍一张照片",那么 Marble 更像是"搭建一个真实存在的地方"。这个小小的蘑菇屋,让人第一次直观感受到:AI 正在从表达信息,走向生成世界本身。

这正是李飞飞论文所强调的未来方向。

六、未来:空间智能将改变五大领域

李飞飞将世界模型的应用归纳为三个阶段。

01、短期:内容生产的空间化

游戏、动画、建筑、工业设计、虚拟世界创作。

未来的创作者将从"画画"变成"造世界"。

02、中期:机器人与具身智能的突破

世界模型将成机器人"认知层"的核心。

它让机器人第一次真正理解现实中的空间结构。

03、长期:科学研究的重新定义

药物空间结构推理、材料探索、气候模拟、复杂系统预测......

世界模型可能成为科学家的"智能显微镜"。

七、AI 的未来不是取代人,而是扩展人类能力

李飞飞在论文最后写道:AI 的使命不是替代,而是增强人类。

世界模型将让 AI 从"会说话"走向"会理解世界"。

它会成为:

复制代码
科学家的模拟器

创作者的虚拟工作室

城市的空间大脑

机器人的世界观

当 AI 终于拥有了空间智能,人类也将拥有新的工具去理解世界、创造世界。

而今天我们搭建的这间蘑菇屋,也许只是未来万千虚拟世界中的一个原点。

相关推荐
东哥说-MES|从入门到精通37 分钟前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
小殊小殊37 分钟前
DeepSeek为什么这么慢?
人工智能·深度学习
豆奶特浓61 小时前
Java面试生死局:谢飞机遭遇在线教育场景,从JVM、Spring Security到AI Agent,他能飞吗?
java·jvm·微服务·ai·面试·spring security·分布式事务
极客BIM工作室1 小时前
从静态到动态:Sora与文生图潜在扩散模型的技术同异与AIGC演进逻辑
人工智能·aigc
松果财经1 小时前
长沙的青年友好,五年见“城”心
人工智能
秋邱1 小时前
智启未来:AGI 教育融合 × 跨平台联盟 × 个性化空间,重构教育 AI 新范式开篇:一场 “教育 ×AI” 的范式革命
人工智能·python·重构·推荐算法·agi
todoitbo1 小时前
基于 DevUI MateChat 搭建前端编程学习智能助手:从痛点到解决方案
前端·学习·ai·状态模式·devui·matechat
黑客思维者1 小时前
ChatGPT软件开发提示词库:开发者常用150个中文提示词分类与应用场景设计
人工智能·chatgpt·提示词·软件开发
IT_陈寒1 小时前
React性能优化:这5个Hooks技巧让我减少了40%的重新渲染
前端·人工智能·后端