从LLM到WM：大语言模型如何进化成具身世界模型？

1.引言这学期在方老师开设的《机器人大模型基础和前沿》选修课上接触并学习了具身智能方面的相关知识。作为交互组的组长，我和组员们在幻尔机器狗的功能开发上有切身的实践与探索，在张江具身智能大会上，也见识到了前沿的技术和行业的发展现状和无限的潜力，这些不仅对我个人能力有提升，还让我有未来在具身智能方面进一步投入的热忱。近年来，大语言模型取得了突破性的进展，人们在工作生活中或多或少地和它们打交道，但其缺乏对物理世界的感知和环境交互的经验，使其无法直接应用在具身智能体上作为"大脑"，这也就引出了世界模型（World Model，WM）的概念：为具身智能体提供了一种模拟未来、推演动作后果，能像人类一样"先知先觉"地感知和推断环境能力的模型。接触具身智能之前，我对自然语言处理有浅层的了解，所以在我的结课报告中，我将LLM和WM作为主题，探讨两者之间的关系。2.大语言模型的发展大语言模型是通过学习语料中词序列的生成概率来赋予机器语言能力的主要方法。从2003年论文《A Neural Probabilistic Language Model》中提到的MLP架构（每个文本给予固定参数量的张量，经过输入层、超参数层、输出层的架构进行学习），再到2017年Google发布的《Attention is all you need》，首次提出了具有自注意力机制的Transformer架构，大语言模型正式进入了爆发期。近年来基于Transformer的预训练模型在大规模语料上训练后展现出强大的通用语言能力。其基本原理是通过语言模型把世界知识压缩到Transformer网络中。这意味着LLM训练时通过预测下一个词汇，实际上学习了包含在文本中的大量世界知识（语言学、常识、社会知识等）。与此同时，自注意力机制使得大语言模型拥有上下文处理的能力和具备一定的推理能力，例如通过连锁思维（Chain-of-Thought）提示可以分步解决逻辑和数学问题，展现出"拟人化"的回答能力。总之，LLM在自然语言处理领域已展现强大的潜能，被广泛用于对话系统、写作辅助、信息检索、机器翻译等场景。然而，它们主要依靠语言文本进行训练，并未直接接触现实世界的多模态信息，因此在需要物理常识和环境感知的任务上存在根本局限。

左图为Transformer架构，右图为MLP架构3.世界模型的概念和其在具身智能中的重要性世界模型（World Model）是具身智能系统的核心概念。它类似于人类在头脑中构建的对环境的内在表征，能够进行环境状态的压缩编码和动态演化建模，从而使智能体具备对外界进行推理和预测的能力。具体来说，世界模型就是一个内部仿真器：在当前观测和动作的基础上，预测未来环境状态或感知结果，以支持智能体的规划和决策。经典的例子可以类比于人类玩棋：棋手在行动前会在脑海中"预演"几步走法，同样，具身智能体也需要在执行物理动作之前在内部模拟环境的未来变化。比起仅仅依赖即时感官信息，智能体更需要把内部世界模型作为前瞻性指南，就像国际象棋选手思考若干步棋或者司机直觉地预见前方行人可能突然冲出一样。实质上，世界模型赋予智能体认知能力，使其能够感知、预期并推理周遭环境，并在不确定条件下做出更明智的决策。在具身智能的背景下，世界模型至关重要。一方面，它为机器人或智能体提供了内在的"物理常识"，能够理解并预测环境中的物体运动、相互作用和因果关系。另一方面，它支持多种下游任务的泛化，例如生成模拟、路径规划和长期决策等。例如，在自动驾驶场景中，配备世界模型的自动驾驶系统可以在虚拟空间中预测车辆、行人等的未来轨迹，从而更加安全地规划行驶路线。在仿真任务中，世界模型能够生成符合物理规律的场景序列，以供训练和推理。正如学界所强调的，"世界模型日益被认为是高级认知智能体的基础"------人类使用心理模型来理解环境，AI系统也将世界模型嵌入认知架构来指导感知和行动。简而言之，具身智能强调智能体通过感官与环境交互来获得知识，因此世界模型是其核心。它让AI系统不再是孤立的文本处理器，而是具有"心智地图"的实体，可以像人一样在头脑中模拟世界。在下一步，我们将探讨现有LLM与WM的关系，以及如何让语言模型逐步具备世界模型的特性。

图为智源大会上孙富春教授对世界模型的阐释4. LLM与WM的关系：大语言模型能否演化为具身世界模型？在最近我刷到的一个访谈中，李飞飞教授谈到了大语言模型和具身世界模型。她说到："大语言模型的核心是'Saying things'，而具身世界模型的核心是'Seeing and doing things'。大语言模型的基本单位是词典，可以是单词或者句子。而对于具身世界模型，它的基本单位则是像素或者体素。我们的目标是探索AI算法，让人类可以和像素世界进行沟通。"当前的一个研究问题是，我们是否可以利用LLM的庞大知识库和推理能力，通过适当的训练，使其拥有对物理世界的内部仿真能力？纯粹的LLM缺乏对物体如何运动、相互作用，以及连续操作反馈的直接经验，这使它们难以进行真正的物理推理和因果理解。要弥补这一差距，研究者提出了让LLM"学习具身经验"的思路。例如，有工作提出在虚拟物理世界（如虚拟家居环境中）部署一个具身智能体，让它通过规划和随机探索收集丰富的交互经验，然后用这些经历去微调LLM。这样可以让语言模型从模拟的具身经验中学习到推理和动作技能，同时仍然保持其通用性。此外，多模态数据的融合也是关键路径之一。通过引入视觉、触觉、语言等多模态输入，LLM可以获得更丰富的环境信息。例如，将图像或传感器数据编码成适合语言模型处理的形式能够使得原本只会处理文本的模型了解周围现实世界，从而"弥合"语言与物理世界之间的鸿沟。4.1 典型模型：PaLM-E PaLM-E（Pathways Language Model with Embodied），是Google和柏林工业大学联合开发的，与2023年发布的具身多模态语言大模型。PaLM-E是一个用于体现推理任务、视觉语言任务和纯粹语言任务的单一通用多模态语言模型。PaLM-E能够将视觉-语言领域的知识迁移到具身推理任务中------无论是让机器人在具有复杂动力学和物理约束的环境中执行规划任务，还是回答关于可观测世界的问题。PaLM-E运行在多模态句子上，即token序列，其中来自任意模态（例如图像，神经3D表示或状态）的输入与文本token一起插入作为LLM的输入，然后进行端到端的训练。最大的PaLM-E-562B（562亿参数）模型可以进行零样本多模态思维链推理，可以在给定图像的情况下讲视觉调节的笑话，并演示一系列与机器人相关的多模态信息功能，包括感知，基于视觉的对话和规划。PaLM-E还可以零样本学习方式推广到多图像提示，尽管只在单图像提示上进行过训练。PaLM-E还可以在给定文本交错手写数字的图像去执行数学运算。此外，该模型可以对时间标注过的、以自我为中心的视觉进行零样本、问答，但都在一个模型中端到端执行。在训练包含机器人任务外，PaLM-E-562B还是一个视觉语言通才，在OK-VQA等数据集上取得了领先性能，同时保留了随着规模增长而来的强大语言能力 PaLM-E展示了将传感器数据无缝注入LLM的可行性，是LLM向WM迈进的重要案例。图为PaLM-E的模型架构4.2 LLM向WM转化的关键挑战物理推理能力不足：LLM受限于文本训练，很难形成准确的物理直觉。举例来说，理解碰撞运动规律、摩擦力等概念都需要真实感知支持。要解决这一问题，模型需要通过视觉/触觉数据或仿真任务来学习物体运动和交互的因果规律。因果理解和预测：世界模型要求AI能够理解因果关系，而LLM通常仅基于统计相关性进行语言生成。它们可能根据语料习得各种现象的描述，但并不真正"理解"因果机制。高质量的世界模型需要能够预测"如果......那么......"的结果。当前的多模态模型和LM虽然具备一定推断能力，但要达到可以在新环境下进行可靠因果推理的水平，仍需要进一步在多样化场景中学习和验证。模拟与现实的差距（Sim2Real）：许多具身模型依赖于模拟器进行训练（如虚拟环境中的探索）。但是，模拟环境与现实世界之间存在差距，包括物理参数、随机性和感知噪声等方面的差异。如何使得在虚拟环境学到的世界模型知识有效迁移到现实机器人或真实场景中，是一个重要课题。长期规划与记忆：复杂任务往往需要跨越长时间的规划和记忆，例如在大楼中寻找物品或完成多步骤的烹饪任务。LLM的上下文长度和记忆机制有限，即使具备连锁思维，也常常因篇幅和细节复杂度受限而无法在真实世界场景中执行长期计划。世界模型需要能够跨越数十步乃至数百步地模拟未来状态，而这对当前架构提出了挑战，需要结合强化学习中的记忆机制或者分层规划策略来解决。5.总结大语言模型向具身世界模型的演化是通向通用人工智能的一条重要路径。它要求我们打通语言→感知（视觉，触觉，听觉）→动作→世界模拟的闭环，实现"纸上谈兵"向"落地生根"的跨越。如同电影《黑客帝国》中虚拟矩阵的预测能力所设想的那样，当AI能像人类那样"在头脑中预见未来"时，智能系统将具备前所未有的创造性和适应性。这不仅是技术的演进，更是认知科学与AI的深度融合，为我们理解智能本质提供了新的视角。