每日一篇-【ICRA2025】-->任务感知语义地图:超越指令的自主机器人任务分配

写在之前{

唯心主义或建构主义: 认为我们所理解的世界是被语言所塑造或"建构"的。

这并不是说"桌子是语言构成的",而是说:我们对"桌子"的全部理解、概念和它在我们世界中的"意义",是完全由语言构建的。

具身智能的"智能 "其实往往依赖于"语言"进行与世界的交互。

}

作者认为:基于详细具体指令(例如"去厨房拿个苹果")的规划已开展了大量研究,然而,随着家用机器人的日益普及,未来要指定每天需要完成的每一项任务可能会非常繁琐。例如,当房屋凌乱时,机器人应该能够自主检测到并进行清理;它还应该在晚餐时间摆放餐具,并在灰尘较多时进行吸尘,从而根据需要智能地处理各项任务。

本文 :机器人能够通过理解环境来自主识别并提出任务:任务感知语义地图(TASMap

"目前,大多数帮助机器人理解环境的语义地图,其功能还比较初级。它们就像是给环境贴上了'被动'的标签,比如告诉机器人'这是一张桌子'或'这是厨房'。

以往的研究主要集中在如何让这些标签(比如物体名称)变得更准确,或者增加一些空间关系。但这种做法忽视了一个根本问题:对于一个需要自主决策的机器人来说,仅仅知道一个物体的名字,并不能帮它决定该做什么。

为了解决这个"从感知到决策"的鸿沟,我们提出了一种全新的'任务感知语义地图'(TASMap)。它不再局限于'这是什么',而是能主动回答'能做什么'。

具体来说,TASMap能够智能地分析环境中的物体、状态和它们之间的组合,从而主动识别出当前环境中潜在的任务机会(例如,它看到脏桌子和旁边的抹布,就能推断出'擦桌子'这个任务是可执行的)。更进一步,它还能根据具体情况,向机器人推荐当下最合适的任务。

图1.TASMap会根据物体的状态分配相应的任务(上图)。左下方根据空间信息标出了机器人应优先关注的区域。右侧红色阴影部分代表与特定情境相关的物体。

TASMap 是一种新型语义地图,能够表示家庭服务机器人所需的任务。该方法使机器人无需人类明确指令即可自主执行任务。如图1 上图所示,TASMap 可以识别诸如在厨房洗碗、扶正倒下的植物以及关闭打开的橱柜等任务。检测到任务后,机器人会自动开始清洁房屋,从最脏的区域开始,例如 图1左下角所示的炉灶附近。如果房屋有异味,任务优先级会相应调整。考虑到具体情况,机器人会首先执行与异味相关的任务,例如洗碗和移动脏锅, 如图1右下角所示。

表1任务集中任务名称和建立任务感知语义图真实值的标准

为了实现这一功能,机器人首先拍摄环境图像,识别每个场景中的物体及其相关任务,整合来自不同视角的信息,然后构建TASMap 。作者提出了两种任务优先级排序方法:上下文任务建议空间任务 建议,它们基于TASMap确定任务的执行顺序。

这是这篇文章的创新点

  • 我们提出了一种新的语义地图,用于表示环境中的适当机器人任务。

  • 我们的方法在地图绘制和任务规划之间架起了一座创新的桥梁,无需人类语言指令即可自主生成任务目标。

  • 我们推出了第一个代表杂乱家庭环境的数据集,其中包含各种场景和概念。

  • 通过仿真和实际实验验证了所提出方法的有效性。

TASMap的任务构建过程,如图2所示:

图2 所提出的框架概述。在任务生成模块中,以自我为中心的RGB图像作为输入,将任务与图像中的每个对象关联起来。深度和相机姿态等输入用于语义融合模块,该模块将任务生成的结果与对象实体相结合,生成TASMap。右侧,对象实体以蓝色球体表示,条形图指示任务相关向量。

A. 任务生成

任务生成模块以RGB图像为输入,生成已识别的对象及其对应的任务。该模块由三个子模块组成:实例分割模块、感兴趣区域(ROI)选择模块和任务分配模块。实例分割模块检测并标记图像中的所有对象,识别其对应的像素。ROI选择模块识别ROI,重点关注对任务分配至关重要的对象。任务分配模块则将特定任务分配给这些选定ROI内的对象。

B. 语义融合

语义融合对于在地图上表示任务实体是必要的。考虑到物理信息,单个物体从不同视角观察时可以生成多个分割实 体和任务实体。初始阶段,实例分割融合模块识别同一物体生成的分割实体,融合这些实体,并生成物体实体。

并且作者还意识到了,不同空间视角下可能会产生不同的任务。因此提出了一种任务融合机制。

任务融合

从不同角度拍摄的物体图像包含多种任务相关背景,这给为每个物体分配任务带来了巨大挑战。例如,一张地板上沾有污渍的盘子的特写图像突出了污渍的特征,因此更有可能将其分配为"清洗"任务。相比之下,从远处拍摄的图像通常会强调物体在环境中的空间关系,因此更容易将其分配为"清洗"任务。搬迁为了汇总分配的各种任务,我们首先收集分配给对象实体的任务。

图3.上下文任务建议过程。使用来自 TASMap 的 Python 地图表示(左图)和以自然语言提供的上下文"房子很乱",在右侧提出相应的对象。

超越指令的任务提案

TASMap能够识别指定环境中所有潜在任务。然而,由于资源有限,同时执行所有任务并不现实。我们开发了基于情境和空间信息的任务推荐方法,从而无需使用语言指令。

相关推荐
m0_6501082415 小时前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
J_Xiong01171 天前
【VLNs篇】17:NaVid:基于视频的VLM规划视觉语言导航的下一步
人工智能·机器人
ModestCoder_1 天前
PPO-clip算法在Gymnasium的Pendulum环境实现
人工智能·算法·机器人·具身智能
AiTEN_Robot2 天前
技术赋能降本:机器人叉车在物流场景的成本优化实践
机器人·自动化·制造
会编程是什么感觉...3 天前
机器人 - 关于MIT电机模式控制
机器人·电机
Deepoch3 天前
钢铁读懂作物语:Deepoc具身模型掀起农业机器人革命
机器人
PNP Robotics3 天前
PNP机器人上海宝山智能机器人年会发表机器人10年主题演讲演讲
人工智能·python·机器人
沫儿笙3 天前
abb焊接机器人保护气体省气设备
人工智能·机器人
机器人行业研究员3 天前
轮足之争外,六维力传感器才是机器人的隐形核心
人工智能·机器人·人机交互·六维力传感器·关节力传感器
飞舞哲3 天前
机器人逆解中常见三角函数变换
机器人