3D 视觉语言推理中的态势感知大家读完觉得有帮助记得关注和点赞!!!能够在 3D 空间中执行复杂的视觉语言推理任务是开发家用机器人和以人为本的具身 AI 的一个重要里程碑。在这项工作中,我们证明了 3D 视觉语言推理中一个关键而独特的挑战是态势感知,它包含两个关键组成部分:(1) 自主代理根据语言提示进行自我定位。(2) 代理从其计算位置的角度回答开放式问题。为了应对这一挑战,我们引入了 SIG3D,这是一种用于 3D 视觉语言推理的端到端 Situation-Grounded 模型。我们将 3D 场景标记化为稀疏体素表示,并提出一个