AI核心知识39——大语言模型之World Model（简洁且通俗易懂版）

世界模型 (World Model) 是通往 AGI (通用人工智能) 的另一块必不可少的拼图，也是目前 AI 界大佬们（特别是 Meta 的首席科学家 Yann LeCun）吵得最凶的话题。

如果说 LLM（大语言模型）是一个**"读万卷书的文科生"**，主要理解语言的概率；

那么世界模型就是一个**"懂物理规律的理科生"**，主要理解物理世界是如何运作的。

简单来说：世界模型就是在 AI 的脑子里构建一个"真实世界的模拟器"。

人类天生就有世界模型。

💡 举个例子：扔玻璃杯

你手里拿着一个玻璃杯，松手。

在杯子落地之前，你的脑子里已经模拟出了结果：它会垂直掉下去（重力），砸在地上，碎片四溅（物理碰撞），发出响声。

你不需要真的摔杯子，就知道会发生什么。

这就是世界模型的能力：推演未来、理解物理规律（重力、惯性、碰撞）、理解因果关系。

目前的 LLM (ChatGPT) 其实经常"缺乏常识"，因为它学的是文本的概率 ，而不是世界的规律。

LLM (概率预测)：
- 问："把一个球放在桌子上，推它一下，它会怎么样？"
- LLM：它看过很多书，书上写着"球会滚"，所以它回答"球会滚"。
- 缺点：如果这只是个不规则的石头呢？或者桌子是斜的呢？LLM 可能会开始胡编，因为它脑子里没有"物理引擎"。
世界模型 (仿真模拟)：
- 问：同上。
- 世界模型 ：它会在脑海里构建一个 3D 场景，模拟推力的向量、摩擦力、重力，然后推算出球滚动的轨迹。它不是在"背书"，它是在"运行物理实验"。

OpenAI 发布 Sora （视频生成模型）时，震惊了世界。不仅因为画质好，更因为官方称它为 "世界模拟器 (World Simulators)"。

以前的 AI 视频经常"穿帮"：比如人走着走着多了一条腿，或者吃面条时面条吸进了鼻子里。

Sora 展现出了惊人的"世界模型"特征：

物体恒常性 (Object Permanence)：
- 一个人走到树后面（被遮挡），再走出来，还是那个人，衣服没变。Sora 知道"东西被挡住不代表消失了"。
物理互动：
- 画家在画布上画一笔，画布上就真的留下了颜料的痕迹。Sora 理解"动作会对环境造成改变"。
三维一致性：
- 摄像机旋转，背景里的建筑物透视关系是正确的。Sora 脑子里似乎有个 3D 地图。

这说明：Sora 不仅仅是在生成像素，它似乎真的理解了光影、遮挡、重力和时间流逝的规律。

除了生成视频，世界模型最急需的场景是 自动驾驶。

这种对未来状态的预测能力 (Prediction of Future States)，就是世界模型的核心价值。它可以让 AI 在采取行动之前，先在脑子里"预演"一遍后果。

Meta 的首席科学家 Yann LeCun 是世界模型的坚定支持者。他有一句名言：

"文本包含的信息量太少了。一个孩子在 4 岁前看到的视觉数据，比现在的 LLM 读过的所有互联网文本还要多。"

他认为，GPT 这种基于 Transformer 的"预测下一个词"的技术路线是有天花板的。要实现真正的 AGI，必须建立基于视觉和传感器数据的世界模型，让 AI 像动物一样通过观察物理世界来学习，而不是整天在那读死书。

世界模型 (World Model) 是 AI 从"文科状元"向"理科天才"进化的关键一步。