具身智能‘Affordance‘理解

ICscholar2026-02-15 17:06

在具身智能（Embodied AI）和手物交互（HOI）的语境下，"affordance"（通常在中文学术界被翻译为"可供性"或"交互可用性"）主要指物体上可供操作的特定区域以及这些区域所提供的交互可能性 。

简单来说，它解决的核心问题是告诉智能体（虚拟手或机器人手臂）"面对一个物体时，哪里可以摸，哪里可以用来做什么"。

我们可以从以下几个关键维度来深入理解它的含义：

连接语言意图与物理功能的桥梁：Affordance 能够将人类高层次的、抽象的自然语言意图（例如指令中提到"我渴了"）与物体上具体的、可执行的操作功能联系起来。
精确定位物理交互区域：在视觉和几何层面，模型会生成"空间可供性图"（spatial affordance map）。这个图能够在 3D 点云中精准定位几何上合理的交互区域，例如识别出杯子的把手、机器的按钮，或者高亮标记出水瓶的瓶盖（提示用于拧开）和瓶身（提示用于握持）。
保障动作的物理真实性：在合成复杂的交互动作序列时，affordance 被作为一种极其强大的先验（prior）和引导条件。它指导模型必须关注物体上那些功能最关键的区域；如果剥离了对 affordance 的理解，模型生成的动作会导致手部放置极其不自然，甚至频发手部穿透物体（穿模）等不符合物理规律的错误。
具身机器人的操作指南：在具身机器人的实际应用中，对未知物体进行开放世界的 affordance 定位，能够直接指导机器人识别出新物体上适合进行抓取、推动或作为工具使用的区域。这极大提升了机器人在非结构化环境中处理各种任务的成功率。