
摘要
本文提出层次化过程知识图谱(HP-KG),通过构建涵盖任务-步骤-动作的三层结构,显著增强小规模大语言模型在复杂机器人操作任务中的规划能力,使7B模型性能超越72B模型,同时大幅降低具身智能的能耗需求 。
阅读原文或https://t.zsxq.com/QNUcY获取原文pdf
引言:具身智能规划的新突破
具身人工智能是指集成到物理系统(如机器人)中的人工智能,使其能够通过感知、推理、规划和执行能力与物理世界进行交互 。近年来,大型语言模型在机器人任务规划方面展现出卓越能力,极大地推动了具身人工智能的发展。这些模型通常作为高级规划器,将人类指令分解为可执行的子目标,同时依赖预定义技能进行执行 。
然而,现有研究表明,基于大语言模型的规划方法在复杂操作任务中往往会生成不切实际或逻辑不一致的规划步骤,这主要是由于缺乏过程性常识 。例如,大语言模型可能会忽略智能体当前的物理状态,从而未能包含必要的前置动作(如在任何移动之前需要站立的动作),或者忽视物理约束,如在从容器内取物品之前需要先打开封闭的容器 。
此外,机器人通常受到有限能源供应的限制,而基于大语言模型的规划器通常需要大规模模型(例如拥有562B参数的PaLM-E)才能在复杂的长时程场景中具备足够的规划能力。对于具身智能而言,配备大规模大语言模型既耗能又低效,影响其实际应用 。
核心创新:层次化过程知识图谱
设计理念与结构
为了解决上述问题,研究团队提出构建一个有效的过程知识图谱来增强基于大语言模型的规划器。过程知识是指对如何执行特定任务的理解,通常表达为实现特定目标所需的步骤序列 。由于过程知识图谱提供了规划所需的常识,将正确的过程知识注入大语言模型可以有效增强其推理准确性。因此,配备过程知识图谱的小规模大语言模型就具备了足够的规划能力,从而减轻了具身人工智能的计算成本需求 。
研究团队的一个关键观察是:机器人操作的过程可以分解为机器人能够理解和执行的有限原子动作集。这些原子动作可以组合成一系列步骤,而步骤又可以进一步组合成与现实世界中的人类指令高度抽象对应的任务。基于这一洞察,研究团队设计了一种新颖有效的层次化过程知识图谱(HP-KG),将过程组织为三个不同的层次:任务(Tasks)、步骤(Steps)和动作(Actions) 。
三层架构的优势
这种层次化设计有效地弥合了语言理解和机器人执行之间的领域鸿沟。每个过程还通过文本属性(描述、名称和提示)得到进一步丰富 。具体而言:
-
任务层
:对应高层次的人类指令和目标
-
步骤层
:将任务分解为中间级别的可操作步骤
-
动作层
:包含机器人可直接执行的原子级动作
这种结构设计使得知识图谱既能捕捉复杂任务的整体逻辑,又能提供机器人可直接理解的执行细节,从而实现从人类语言到机器人动作的平滑转换 。

自动化构建框架:基于多智能体的知识图谱生成
数据源与范围界定
为了消除手动知识工程的需求并减少人力投入,研究团队引入了一个通过多智能体校准自动构建过程知识图谱的框架 。考虑到家庭活动是每个人都经常执行的任务,并且代表了机器人辅助日常生活的有前景领域,研究团队在这项工作中专注于家庭活动 。
研究团队系统地从WikiHow语料库中筛选与家庭相关的任务,并将其与BEHAVIOR数据集相结合作为知识来源 。最终构建的HP-KG包含了日常场景中超过6000个家庭任务的42000多个活动步骤 。

四阶段构建流程
知识图谱的自动化构建主要包括四个关键阶段:
第一阶段:提取(Extraction)
研究团队提示大语言模型从每个家庭任务中提取步骤,并通过生成相应的动作及其文本属性来完善这些步骤 。
第二阶段:完善(Completion)
系统会自动补充缺失的信息,确保每个任务-步骤-动作链条的完整性。
第三阶段:验证(Verification)
随后,采用两个大语言模型智能体基于设计的规则对生成的过程进行迭代验证和精炼 。
第四阶段:去冗余与合并(Refinement)
为了在丰富信息的同时减少冗余,研究团队执行语义相似度聚类和基于大语言模型的知识合并 。
这种自动化框架不仅大大降低了构建大规模知识图谱的人力成本,而且通过多智能体的交叉验证机制保证了知识图谱的质量和一致性 。
检索与应用:知识增强的规划流程
智能检索机制
研究团队提出了一种检索方法来利用构建的HP-KG。给定一个语言指令,系统首先生成一个精炼的查询,然后基于语义相似度检索相关的知识节点 。
检索过程包括以下步骤:
-
查询优化
:将原始人类指令转化为更适合知识图谱检索的精炼查询
-
初始检索
:基于语义相似度找到最相关的知识节点
-
图遍历
:通过K跳广度优先搜索(K-hop BFS)扩展相关节点
-
重新排序
:对检索到的节点进行重新排序,识别最相关的节点
-
文本化
:将选定节点的子图转换为文本描述,用于上下文规划
与大语言模型的集成
检索到的过程知识作为上下文信息提供给大语言模型,显著增强其规划能力。这种方法的优势在于:
-
减少幻觉
:提供结构化的过程知识,避免模型生成不切实际的步骤
-
提升逻辑一致性
:确保生成的计划符合物理约束和前置条件
-
降低模型规模需求
:通过外部知识增强,使小规模模型达到大规模模型的性能
值得注意的是,该方法与各种视觉语言模型的子目标生成过程无缝集成,具有良好的通用性 。

实验验证:显著的性能提升
基准测试表现
研究团队在ActPlan-1K和RLBench等多个基准数据集上进行了广泛实验,结果表明HP-KG使7B规模的小型模型能够实现比仅使用72B规模模型更强的能力 。
具体实验数据显示,在7B大语言模型上,使用HP-KG增强后的规划能力提升了17.64% 。这一结果充分证明了层次化过程知识图谱在增强机器人规划方面的有效性。
跨模型的鲁棒性
令人鼓舞的是,该方法在最强大的GPT-4o模型上仍然保持有效 。这表明HP-KG提供的结构化过程知识不仅对小规模模型有显著提升作用,对于已经具备强大能力的大规模模型也能带来进一步的性能改进。
能效优势分析
从具身智能的实际应用角度来看,使用HP-KG增强的小规模模型相比直接使用大规模模型具有显著的能效优势:
-
计算资源节约
:7B模型的计算需求远低于72B模型
-
能源消耗降低
:对于能源受限的机器人平台尤为重要
-
响应速度提升
:更小的模型通常具有更快的推理速度
-
部署灵活性
:可在资源受限的边缘设备上运行
这些优势使得HP-KG增强的规划方法更适合实际的机器人应用场景 。

技术贡献与创新点
研究团队的主要贡献可以归纳为以下几个方面:
创新的知识表示结构
设计了一种新颖的层次化过程知识图谱结构,通过任务-步骤-动作的架构有效地形式化了复杂的家庭任务 。
自动化构建范式
引入了一种利用基于大语言模型的多智能体构建层次化过程知识图谱的新颖自动化框架,消除了手动知识工程的需求 。
大规模知识资源
构建了HP-KG这一大规模过程知识图谱,包含日常场景中超过6000个家庭任务的42000多个活动步骤 。
显著的性能提升
实验证明该方法显著提高了规划能力(在7B大语言模型上提升17.64%),并降低了对大语言模型规模的需求 。
相关研究领域
知识图谱构建
传统的知识图谱构建方法通常涉及多个任务,包括实体提取和关系分类,这会产生大量的人力投入和成本 。随着BERT、GPT-3等预训练语言模型的进步,端到端的三元组提取成为一种有前景的范式 。当代图构建方法利用大型语言模型通过提示或微调进行实体提取 。
知识图谱增强的大语言模型
知识图谱作为提供结构化事实表示的工具,已成为增强大语言模型性能的强大手段 。知识图谱增强生成的最新进展表明,知识图谱可以作为外部知识库提供准确的事实信息,有效增强大语言模型生成响应中的事实正确性 。此外,多项研究表明,利用知识图谱中固有的结构关系可以增强大语言模型的推理能力 。
机器人操作的基础模型
视觉-语言基础模型的最新成就对机器人操作领域产生了重大影响 。这些模型展示了控制机器人执行复杂任务的潜力。最近的研究可以大致分为两种范式:一种采用视觉-语言-动作模型(如RT-2、RT-X和OpenVLA)直接将视觉输入和语言指令映射到机器人动作;另一种范式利用视觉语言模型将高级指令分解为子目标,然后通过预定义技能解决这些子目标 。
本研究方法与这些方法是正交的,得益于视觉语言模型的上下文理解能力,HP-KG可以与各种方法的子目标生成过程无缝集成 。
局限性与未来展望
尽管HP-KG在机器人规划任务中取得了显著成果,但研究团队也坦诚地指出了当前工作的局限性。
应用范围的限制
目前的知识图谱仅限于家庭活动,这限制了其在一般场景中的适用性 。虽然家庭活动是机器人辅助的重要应用领域,但工业制造、医疗护理、农业生产等其他领域也存在大量的机器人操作需求。
未来发展方向
研究团队计划开发一个通用的过程图谱,并将其应用于更广泛的领域 。这可能包括:
-
领域拓展
:将知识图谱扩展到工业、医疗、服务等多个垂直领域
-
跨领域迁移
:研究如何将在一个领域学习的过程知识迁移到其他领域
-
动态更新机制
:建立知识图谱的持续学习和更新机制,以适应新出现的任务和技术
-
多模态融合
:整合视觉、触觉等多模态信息,构建更丰富的过程知识表示
结论
本研究通过提出层次化过程知识图谱(HP-KG),为具身智能领域提供了一个创新的解决方案。通过将复杂的机器人操作任务组织为任务-步骤-动作的三层结构,HP-KG有效地弥合了人类指令与机器人执行之间的鸿沟。基于多智能体的自动化构建框架不仅降低了知识图谱的构建成本,还保证了知识的质量和一致性。
实验结果充分证明,配备HP-KG的小规模语言模型(7B)在复杂机器人规划任务中的表现可以超越未经增强的大规模模型(72B),这为解决具身智能的能耗和效率问题提供了切实可行的路径。随着知识图谱向更多领域扩展和技术的进一步完善,这一方法有望在实际机器人应用中发挥更大的作用。