Fei-Fei Li
"世界就是所发生的一切。" ------路德维希·维特根斯坦,《逻辑哲学论》,1921
世界不是由文字构成的。
在之前的文章中,我们提出空间智能是AI的下一个前沿,而世界模型是通往它的路径。在这里,World Labs团队和我希望更深入一步:在如今众多被称作"世界模型"的东西中,哪些功能组件真正构成了这种能力------以及它们各自的作用是什么?
语言模型让机器掌握了概念、词汇和推理的非凡能力,但物理世界(无论是虚拟的还是真实的)运行在不同的基底上。语言模型学习的是文本的统计结构,而世界模型学习的是空间和时间的统计结构:光线如何落在表面上,从一个从未被相机捕捉的角度看花园是什么样子,物体如何响应力和遵循物理定律。
这使得"世界模型"成为当今AI领域最重要、也最 overloaded(含义最混杂)的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在声称自己在构建世界模型,但各自的含义大相径庭。一个能生成华丽却物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型,以及一个忠实模拟燃烧过程的物理引擎,都被冠以同一个名字。
古希腊人始终无法就世界由什么构成达成一致------是火、水,还是不可分割的原子------因为"世界"从来不是单一的事物。它始终是一个替身,代表某个思想家需要用来推理的任何总体。AI在正需要精确性的时刻,继承了同样的问题。
循环:分类法的基础
要消除这种混乱,需要从一张比任何相关技术都更古老的图开始。强化学习教科书(包括经典的Sutton和Barto的书)几十年来一直使用同一张图的变体,来描述智能体如何与世界互动。这张图的正式名称是部分可观测马尔可夫决策过程(POMDP),而"世界模型"一词的原始技术定义就来自这个传统。
一个智能体(可以是人、机器人或软件系统)采取行动。这些行动会影响世界的状态。智能体永远无法直接看到状态。它接收到的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测会引导新的行动,循环继续。
"状态"这个词需要展开解释,因为它的含义在不同领域会有变化。这里不是化学家的状态(固态、液态、气态的区别),而是物理学家和机器人学家的状态:对世界在某一时刻发生的一切的完整描述,包括每个物体、每个位置、每个速度、每个属性。状态是世界的底层现实;原则上是完整的,但任何身处其中的智能体都无法直接看到它。观测是智能体对该现实的部分视图。行动是智能体做出的回应。
这个循环------智能体→行动→状态→观测→智能体------就是赋予现代"世界模型"技术含义的结构。这个词本身更早,可以追溯到Kenneth Craik 1943年提出的观点:心灵通过运行现实的"小规模模型"来进行推理,并在20世纪80年代末90年代初被引入神经网络。而这个循环也解释了今天人们使用这个术语时的不同含义。如今被称作世界模型的不同事物,实际上是这个同一循环的不同投影。每个都输出循环的不同部分。
世界模型的三种功能
第一类世界模型是渲染器(Renderer)。渲染器以像素形式输出观测,供人眼观看,最重要的质量是视觉保真度。将文本提示转化为电影级无人机镜头的视频模型就是渲染器。Google的Genie 3或World Labs自己的RTFM等交互系统也是如此,它们根据用户输入实时生成帧。这类模型不具备对三维结构的显式理解。它生成的是观众会看到的东西,而不是实际存在的东西。无人机镜头中的建筑从上方看可能完美无缺,但如果你试图开车穿过下面的城市,它们就会崩塌。
第二类是模拟器(Simulator)。模拟器输出状态:一个在几何、物理或动态上忠实于世界的表示,人类和计算机程序都可以对其进行计算和交互。渲染器的契约是纯粹视觉的,而模拟器的契约是结构性的,要求几何在检查时成立、物理遵守牛顿定律、动态行为符合物理规律。模拟器同时服务于两类用户:建筑师、设计师、电影制作人和游戏开发者等人类专业人士需要超越视觉逼真度的准确性;强化学习智能体、机器人控制器、自动驾驶汽车等计算机程序则将模拟器作为训练场,在其中大规模交互,测试现实中危险、昂贵或不可能运行的场景。
第三类是规划器(Planner)。规划器输出行动。在给定观测和目标的情况下,规划器回答智能体下一步应该做什么的问题。从很多方面看,它是渲染器的逆运算。渲染器以行动作为输入产生观测,而规划器以观测作为输入产生行动,从而闭合感知-行动循环。视觉-语言-行动模型、基于模型的系统,以及新一波的World Action Models,都是规划器的尝试:能够在非结构化世界中决定机器人该做什么的系统。
这三个类别描述了当今大多数实际落地的内容,它们之间的区分在实践中非常有用。不过,这些类别并非根本上相互分离。关于世界如何运作的相同底层知识------几何、物理、动态------是它们共同的基础。一个能从任意角度渲染杯子的模型,原则上应该也能模拟杯子被推动时会发生什么,并规划一只手去拿起杯子。目前最有趣的研究正有意模糊这三者之间的界限。
为什么模拟器是关键
在这三类中,模拟器受到的公众关注最少,却是最具后果性的一类。本文正是要解决这种不对称。
渲染器是目前商业化最成熟的。许多图像或文本转视频产品正在消费级或企业市场快速扩张。Google的Nano Banana模型已将渲染器级别的图像生成带给潜在数亿用户。这项技术是真实的,市场也是真实的。然而,渲染器优化的是视觉逼真度而非物理准确性,这个上限很重要。它们的输出很美,但无法被信任用于设计建筑或训练机器人。
规划器是最引人入胜、也最处于萌芽阶段的,与快速发展的机器人学习领域密切相关。过去两年,该领域制作的机器人演示视频看起来令人印象深刻,但我们需要坦诚:这些演示几乎都局限于高度受控的实验室环境,物体种类有限、任务时长很短。还没有任何一个在真实世界部署所需的复杂性、多样性或持续时间上得到验证。从令人信服的演示短片,到能在厨房、仓库或手术室可靠工作的机器人,差距依然巨大。尽管如此,商业赌注巨大。一波资金雄厚的初创公司正在竞相推出通用规划系统,而大型基础设施玩家则正在将规划置于更广泛的模拟堆栈之上。一台能规划的机器人就是一台能工作的机器人,整个行业都在争先恐后地成为第一个实现这一目标的公司。
模拟是两者之间的桥梁。如果说语言是世界的抽象,像素是世界的投影,那么几何、物理和动态就是世界本身。模拟器必须在这个层面工作:它是结构性的主干,从中可以衍生出视觉外观(供渲染器使用)和行动后果(供规划器使用)。
掌握模拟的模型能够将其理解投射到像素中供人类消费,也能投射到行动预测中供具身智能体使用。而只掌握渲染或只掌握规划的模型则无法做到这两点。其商业应用面极其广阔。仅NVIDIA Omniverse就瞄准了工厂、仓库、供应链和数字孪生等领域,公司估算的可寻址市场超过一万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程和药物发现,都依赖于类似模拟的东西。
该领域最困难的开放问题也集中在这里。带有显式几何、材料属性和物理标注的三维数据,比渲染器训练所用的互联网视频稀缺几个数量级。Sim-to-Real差距(模拟中行为与现实中行为的差异)依然存在。生成式模拟器还引入了新的风险:AI生成的几何可能看起来正确,但包含自相交或错误尺度,导致物理行为无意义。多物理模拟在大规模下的实现(刚体、可变形物体、流体和布料等相互作用)仍然比单领域模拟昂贵几个数量级。
在World Labs,我们的Marble是进入这一领域的第一步。它接受多模态提示(文本、图像、视频或空间草图),生成可探索的3D环境,同时输出供视觉探索的高斯溅射(Gaussian splats)和供物理引擎使用的碰撞网格。但Marble只是该领域正在书写的一长篇弧线的第一章,随着渲染、模拟和规划之间的界限开始坍塌,更多内容即将到来。
界限正在坍塌,未来将至
更重要的是,当前领域最重要的模式是这三个类别正在相互融合。共同的洞见在于:渲染世界、模拟世界和在其中行动所需的知识在很大程度上是相同的。延续前面的例子,一个真正理解杯子如何放在桌子上(其几何、材料属性、对力的响应等)的模型,应该能够从任意角度渲染杯子、模拟杯子被推动时的情况,并规划一只手去拿起它。这三个类别是同一底层理解的三种不同投影。
例如:来自不同机器人实验室的少量但越来越多的最新工作表明------至少在概念上------一个预训练的视频渲染器可以作为联合世界与行动预测的主干,从而在渲染器和规划器之间架起桥梁。World Labs的Marble已经从单一模型中同时输出高斯溅射和碰撞网格,消解了渲染器与模拟器之间的界限。每个层面都在从被动输出转向交互系统:渲染器变得可由行动条件驱动,模拟器生成更可控、可编辑的世界,规划器则从单纯反应转向深思熟虑。
逻辑的终点是一个统一的世界模型:一个基础模型,能够渲染照片级真实视图、产生物理上准确的结构,并规划行动序列,根据下游消费者的需求在不同输出模态之间切换。我们仍将面临许多严峻挑战。数据格局不均衡,渲染器拥有海量互联网视频,而模拟器和规划器则面临3D资产和机器人演示数据的严重短缺。为视觉美感进行的优化可能会牺牲机器人或高保真模拟所需的精度。在单一架构内协调这些张力,是当今世界模型研究中定义性的开放问题,这也正是World Labs在持续演进Marble时致力解决的方向。
方向已经明确。自20世纪80年代末以来,该领域一直秉持的同一个赌注------一个足够丰富的世界模型足以让任何智能体看见世界、构建世界并在其中行动------如今正驱动着整整一代研究。赋予这个"大赌注"分量的是已经发生的融合:三条各自已经驱动数十亿美元产业的线索,最初作为独立的研究计划,如今开始表现得像一个整体。合在一起,随着它们之间界限的坍塌,它们将重塑更大的东西:机器智能与其所栖身的物理世界之间的关系------空间智能的漫长弧线。
语言赋予了机器谈论这个世界的方式。 世界模型则是机器最终理解、想象、推理并与之互动的方式。