具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能是实现通用人工智能的必经之路，其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员，对具身智能的最新进展进行了全面解析，推出了多模态大模型时代的全球首篇具身智能综述。

该综述调研了近 400 篇文献，从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台，深入分析了其研究重点和局限性。接着，透彻解析了四个主要研究内容：1) 具身感知，2) 具身交互，3) 具身智能体和 4) 虚拟到现实的迁移，这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外，该综述还探讨了数字空间和物理世界中具身智能体面临的挑战，强调其在动态数字和物理环境中主动交互的重要性。最后，该综述总结了具身智能的挑战和局限，并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考，并推动相关技术创新。此外，该综述还在 Github 发布了具身智能 paper list，相关的论文和代码仓库将持续更新，欢迎关注。

论文地址: https://arxiv.org/pdf/2407.06886

具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出，旨在确定智能体是否能显示出不仅限于解决虚拟环境（数字空间）中抽象问题的智能（智能体是具身智能的基础，存在于数字空间和物理世界中，并以各种实体的形式具象化，这些实体不仅包括机器人，还包括其他设备。），还能应对物理世界的复杂性和不可预测性。因此，具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今，具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术，其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中，具身智能体必须充分理解语言指令中的人类意图，积极主动探索周围环境，全面感知来自虚拟和物理环境的多模态元素，并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计，使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解，使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境，自然地与人类互动，并可靠地执行任务。下图展示了具身智能体的典型架构。

具身智能体框架

在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人 ------ 具身智能在物理世界中的硬件方案；（2）具身仿真平台 ------ 高效且安全地训练具身智能体的数字空间；（3）具身感知 ------ 主动感知 3D 空间并综合多种感官模态；（4）具身交互 ------ 有效合理地与环境进行交互甚至改变环境以完成指定任务；（5）具身智能体 ------ 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成；（6）虚拟到现实的迁移 ------ 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

本综述整体架构

具身机器人

具身智能体积极与物理环境互动，涵盖了广泛的具身形态，包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中，机器人作为最突出的具身形态之一，备受关注。根据不同的应用场景，机器人被设计成各种形式，以充分利用其硬件特性来完成特定任务。如下图所示，具身机器人一般可分为：（1）固定基座型机器人，如机械臂，常应用在实验室自动化合成、教育、工业等领域中；（2）轮式机器人，因高效的机动性而闻名，广泛应用于物流、仓储和安全检查；（3）履带机器人，具有强大的越野能力和机动性，在农业、建筑和灾难场景的应对方面显示出潜力；（4）四足机器人，以其稳定性和适应性而闻名，非常适合复杂地形的探测、救援任务和军事应用。（5）人形机器人，以其灵巧手为关键，在服务业、医疗保健和协作环境等领域广泛应用。（6）仿生机器人，通过模拟自然生物的有效运动和功能，在复杂和动态的环境中执行任务。

不同形态的具身机器人

具身智能仿真平台

具身智能仿真平台对于具身智能至关重要，因为它们提供了成本效益高的实验手段，能够通过模拟潜在的危险场景来确保安全，具有在多样环境中进行测试的可扩展性，具备快速原型设计能力，能够为更广泛的研究群体提供便利，提供用于精确研究的可控环境，生成用于训练和评估的数据，并提供算法比较的标准化基准。为了使智能体能够与环境互动，必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示，本综述将对两种仿真平台进行分析：基于底层仿真的通用平台和基于真实场景的仿真平台。

通用仿真平台

基于真实场景的仿真平台

具身感知

未来视觉感知的 "北极星" 是以具身为中心的视觉推理和社会智能。如下图所示，不同于仅仅识别图像中的物体，具有具身感知能力的智能体必须在物理世界中移动并与环境互动，这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力，理解场景中的三维关系，并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知（触觉传感器）等方面进行介绍。

主动视觉感知框架

具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示，在具身问答任务中，智能体需要从第一人称视角探索环境，以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境，还需决定何时停止探索以回答问题，如下图所示。

具身问答框架

除了与人类进行问答交互外，具身交互还涉及基于人类指令执行操作，例如抓取和放置物体，从而完成智能体、人类和物体之间的交互。如图所示，具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型（如大语言模型和视觉语言基础模型）相结合，使智能体能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。

语言引导的交互式抓取框架

具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时，它们能够有效地将其能力从虚拟空间转移到物理世界，从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行，它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示，为了完成任务，具身智能体通常涉及以下过程：

（1）将抽象而复杂的任务分解为具体的子任务，即高层次的具身任务规划。

（2）通过有效利用具身感知和具身交互模型，或利用基础模型的策略功能，逐步实施这些子任务，这被称为低层次的具身行动规划。

值得注意的是，任务规划涉及在行动前进行思考，因此通常在数字空间中考虑。相比之下，行动规划必须考虑与环境的有效互动，并将这些信息反馈给任务规划器以调整任务规划。因此，对于具身智能体来说，将其能力从数字空间对齐并推广到物理世界至关重要。

基于多模态大模型的具身智能体框架

虚拟到现实的迁移

具身智能中的虚拟到现实的迁移（Sim-to-Real adaptation）指的是将模拟环境（数字空间）中学习到的能力或行为转移到现实世界（物理世界）中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应，具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素，下图展示了五种不同的 Sim-to-Real 范式。

五种虚拟到现实的迁移方案

挑战与未来发展方向

尽管具身智能发展迅速，但它面临着一些挑战，并呈现出令人兴奋的未来方向：

（1）高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外，开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型，必须构建大规模数据集，利用高质量的模拟环境数据来辅助真实世界的数据。

（2）人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习，其中人类执行机器人需要学习的任务。因此，重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型，使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据，机器人系统可以实现更高水平的性能和适应性，使其更能在动态环境中执行复杂任务。

（3）复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境，目前的工作通常依赖预训练的 LLM 的任务分解机制，利用广泛的常识知识进行简单任务规划，但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令，跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

（4）长程任务执行。执行单个指令通常涉及机器人执行长程任务，例如 "打扫厨房" 这样的命令，包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作，且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功，但由于缺乏对具身任务的调整，它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

（5）因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而，这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系，导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此，具身智能体需要以世界知识为驱动，具备自主的因果推理能力。

（6）持续学习。在机器人应用中，持续学习对于在多样化环境中部署机器人学习策略至关重要，但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题，如增量学习、快速运动适应和人机互动学习，但这些解决方案通常针对单一任务或平台设计，尚未考虑基础模型。开放的研究问题和可行的方法包括：1) 在最新数据上进行微调时混合不同比例的先前数据分布，以缓解灾难性遗忘，2) 从先前分布或课程中开发有效的原型，用于新任务的推理学习，3) 提高在线学习算法的训练稳定性和样本效率，4) 确定将大容量模型无缝集成到控制框架中的原则性方法，可能通过分层学习或慢 - 快控制，实现实时推理。

（7）统一评估基准。尽管有许多基准用于评估低级控制策略，但它们在评估技能方面常常存在显著差异。此外，这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型，需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面，许多基准通过问答任务评估规划能力。然而，更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力，特别是在执行长时间任务和衡量成功率方面，而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之，具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动，显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向，这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家，依托鹏城云脑、中国算力网等自主可控 AI 基础设施，致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台，赋能工业互联网、社会治理与服务等重大应用需求。