南科大适应、协同与规划的完美融合！P³：迈向多功能的具身智能体

作者：Shengli Zhou1^{1}1, Xiangchen Wang1^{1}1, Jinrui Zhang1^{1}1, Ruozai Tian2^{2}2, Rongtao Xu2,3^{2,3}2,3, Feng Zheng1,2^{1,2}1,2
单位：1^{1}1南方科技大学，2^{2}2时空智能，3^{3}3穆罕默德·本·扎耶德人工智能大学
论文标题：P³: Toward Versatile Embodied Agents
论文链接：https://arxiv.org/pdf/2508.07033v1

主要贡献

提出P³框架，用于构建多功能的具身智能体，能够实现主动感知、灵活工具使用和复杂多任务规划。
引入统一的感知模块，能够主动检测环境中的动态变化，包括由自身行为、人类行为、其他智能体活动以及其他上下文变化引起的改变，从而自主识别各种类型的任务，无需依赖被动反馈。
通过灵活的工具集成，消除了对工具反馈的需求，使得智能体能够与广泛的设备无缝集成，包括那些没有标准化接口的设备，极大地增强了智能体在现实世界中的灵活性和兼容性。
提出一种新的任务规划模块，能够联合处理所有类型的任务（包括主动任务、被动任务和计划任务），根据任务的优先级和依赖关系动态调整任务顺序，有效管理复杂任务调度。
通过在现实世界中的广泛实验验证了该框架的性能，证明了其能够有效处理动态、现实世界的挑战，成功弥合了基准测试和实际部署之间的差距。

研究背景

具身智能体的发展需求 ：
- 具身智能体是能够通过物理或虚拟身体实时与环境交互的智能系统，其发展旨在弥合感知、推理和行动之间的差距，实现与环境的无缝交互。
- 然而，构建多功能的具身智能体面临着动态环境感知、开放式工具使用和复杂多任务规划等关键挑战。
现有研究的局限性 ：
- 以往的研究大多依赖于工具智能体的反馈来感知环境变化和任务状态，这限制了智能体对实时动态的适应性，容易导致误差累积，并限制了工具的灵活性。
- 此外，多任务调度也未得到充分关注，主要是因为管理任务依赖关系和在动态复杂环境中平衡竞争优先级的复杂性。

方法

P³框架概述

P³框架是一个用于构建多功能具身智能体的系统，旨在实现实时的全任务感知、开放式工具插件和多任务规划。该框架的核心目标是使智能体能够在动态环境中自主感知任务、灵活使用工具，并高效管理多任务的执行。

感知模块

感知模块是P³框架的核心部分，负责主动检测环境中的动态变化，并将这些变化转化为任务提案。其主要功能和流程如下：

输入处理：感知模块以视频流作为输入，实时观察环境。
场景图更新：每当新帧到达时，场景图生成器会更新场景图，捕捉物体之间的空间关系，并将更新后的场景图存储在空间记忆中。
视觉记忆处理：新帧会被发送到视觉记忆模块，通过上下文工程框架进行处理。该框架利用视觉语言模型（VLM）和精心设计的系统提示，生成与机器人当前操作状态上下文对齐的任务提案。
任务提案生成：生成的任务提案与机器人的当前状态结合，确定任务发生的具体位置，并将（任务，情境）对记录在任务记忆的"待处理"部分，供后续调度使用。
视频压缩策略：为解决视频存储和处理的开销问题，采用逐步帧级下采样策略。当帧在视觉记忆中的时间超过限制时，通过VLM进行场景描述，将关键事件以文本形式记录在事件历史中，以保留最大信息量。

工具插件

P³框架支持广泛的工具插件，允许无缝集成各种设备，而无需双向反馈回路。

基础工具智能体：导航智能体（VLN模型）和操作智能体（VLA模型）是执行任务的基础工具，直接控制机器人的运动和操作。
扩展工具集成：除了基础工具外，P³还支持各种现实世界中的工具，如物联网设备和网络智能体。通过上下文工程，如动态场景总结和相关性过滤，智能体可以维护过去观察的简洁、高价值记忆。
自定义工具注册：用户可以通过指定工具的功能和对应的函数调用接口，将自定义工具注册到工具包中，进一步扩展智能体的能力。
安全性与可靠性：在将命令发送给操作智能体之前，会进行验证检查，以确保命令的安全性。同时，采用层次化记忆缓冲区和即时总结，确保只有最相关的信息占用大模型的提示，保持低延迟和稳健性能。

任务规划器

任务规划器是P³框架中负责管理任务执行的模块，能够处理被动任务、主动任务和计划任务。

任务分类 ：
- 被动任务：由用户指令或问题触发，如"打开窗户"。
- 主动任务：由感知模块提出，并存储在任务记忆中，如"整理房间"。
- 计划任务：由用户注册并存储在任务记忆中，根据用户指令由定时器触发，如"下午5点打开空调"。
任务调度：当任何任务被触发时，所有可以立即执行的任务都会被发送到大模型中进行任务优先级和依赖关系评估。调度器通过检索场景中的事件历史，获得相关的关键事件和先前状态，以便更好地进行判断。
任务分配：根据任务的优先级和依赖关系，调度器将高优先级且可以执行的任务通过调度器分配给相应的工具智能体执行。

实验

实验目标

本实验旨在全面评估P³框架在现实世界中的表现，重点关注其三个核心能力：主动感知任务相关信息的能力、无缝插拔和使用各种工具的能力以及基于优先级和依赖关系规划多任务执行的能力。实验通过在真实环境中部署P³框架，验证其在动态、复杂场景下的适应性和有效性。

实验设置

硬件平台：P³框架部署在Realman和AgiBot的人形双臂机器人上，这些机器人具备多种传感器和执行器，能够执行各种任务。
软件配置：集成了Moka管道用于操作任务，Woosh底盘用于导航任务，并测试了与小米智能家居设备的物联网功能。
任务设计：设计了11个现实世界的具身任务，分为独立任务和竞争任务。独立任务评估工具集成和执行能力，竞争任务评估多任务规划和协调能力。

主动感知能力评估

数据集构建：构建了"Active Task Perception Benchmark"，包含272个第一人称视频快照，涵盖家庭场景中的三种任务类别：碎片清理、物品整理和安全检查，以及作为负样本的整洁房间。
评估方法：使用不同的视觉语言模型（VLM）在零样本设置下进行评估，以ChatGPT-3.5-Turbo-1106为评判标准，对模型生成的任务提案进行评分。

结果：QwenVL-max在正样本和负样本之间取得了最佳平衡，整体准确度达到77.09%。其他模型如Cosmos-Reason1-7B和RoboBrain在正样本上表现较好，但在负样本上生成了过多不必要的提案；而Qwen2.5VL-7B、MM-Eureka-Qwen-7B和RoboBrain2.0则倾向于生成较少的提案。

真实环境部署评估

工具集成和执行能力评估

任务设计：设计了6个独立任务，涵盖VLN、VLA、物联网和网络模块等不同类型的任务智能体。
实验结果：
- 任务1：机器人在实验室中捡起废纸，成功展示了框架对主动感知和基本工具集成的能力。
- 任务2：机器人在执行任务时被中断，转而执行打开办公室灯的任务，成功展示了框架对任务中断和恢复的处理能力。
- 任务3：机器人在办公室中发现废纸并清理，中途被中断去实验室拍照，同时处理了计划任务（天气播报）和用户指令（关闭加湿器），成功展示了框架对多任务的动态调度能力。
- 任务4：机器人在实验室中执行任务时被中断，将包裹放在办公室桌子上，最后发现并清理了办公室桌子上的空瓶子，成功展示了框架对复杂任务的处理能力。
- 任务5：机器人在办公室中被询问天气，中途被中断去实验室拍照，途中发现了倒下的杯子并捡起，同时处理了计划任务（天气播报）和用户指令（关闭加湿器），成功展示了框架对突发情况的适应能力。

多任务规划和协调能力评估

任务设计：设计了5个竞争任务，评估框架在有限资源下执行多个任务的能力。
实验结果 ：
- 任务7和8：在清洁和简单的环境中，任务成功率较高，因为这些环境减少了无关任务的检测。
- 任务9、10和11：引入了中等执行的主动任务，要求机器人实时调整计划和任务执行。特别是任务11，机器人需要主动捡起倒下的杯子，这要求机器人适应动作并修改计划，导致性能略有下降。尽管如此，P³框架在整个过程中展示了强大的竞争任务管理能力，其动态调度器和任务记忆允许机器人在中断和新指令下高效地管理任务执行。

结论与未来工作

结论：
- P³框架为具身智能体在多功能、现实世界应用方面取得了显著进展。通过主动识别任务的统一感知模块，消除了对限制性工具反馈的依赖，实现了真正的即插即用能力，能够与任何可控设备无缝集成。
- 结合动态多任务调度器，能够智能地规划、优先级排序和管理并发任务，处理依赖关系和中断。广泛的现实世界实验验证了P³框架能够成功弥合基准测试和实际部署之间的差距，为具身智能体提供了一个可扩展的数据收集基础。
未来工作 ：
- 尽管P³框架在实验中表现出色，但仍存在一些挑战。一方面，由于大模型在感知和规划模块中的表现并不完美，导致P³框架无法总是生成最优答案。另一方面，机器人硬件的不稳定性也在实验中导致了多次失败，如网络连接不稳定和过热保护等。
- 因此，随着各个模块的改进，P³框架有望在更复杂的现实世界场景中进一步增强其适应性和有效性。