ImaginationPolicy：迈向通用、精确、可靠的机器人操作端到端策略

一、核心背景与问题提出

机器人端到端操作策略为实体智能体理解和交互世界提供了巨大潜力。与传统模块化流水线不同，端到端学习能缓解模块间信息损失、孤立优化目标导致的特征错位等关键局限，但现有端到端神经网络（包括基于大视觉-语言-动作（VLA）模型的方法），在大规模实际部署中性能仍显不足------尤其是在可靠性、精度上，甚至逊色于工程化成熟的传统模块化流水线，且在面对未见过的物体或不同机器人平台时，泛化能力短板更突出。

为填补"泛化潜力"与"实际性能需求"的差距，研究提出一种以"可用性（affordance）"为核心的端到端机器人操作方案：将可用性定义为"任务相关、语义明确的物体局部区域"，并通过"任务特定的定向关键点"来具象化这一概念，最终形成"移动定向关键点链（Chain of Moving Oriented Keypoints, CoMOK）"作为动作表示。这一设计既实现对不同形状、尺寸物体的自然泛化，又能达到亚厘米级精度，同时支持多阶段任务、多模态机器人行为与可变形物体操作。

原文链接：ImaginationPolicy：迈向通用、精确、可靠的机器人操作端到端策略

二、相关工作梳理

机器人抓取检测

抓取算法的核心是寻找稳定抓取位姿，相关研究已较为广泛，但这类方法多局限于"抓取"这一单一任务。而提出的方法将抓取检测纳入统一动作表示框架，使其成为整体公式的一个特例。

基于可用性的机器人操作

传统可用性概念多用于研究人与动物行为，在机器人操作中，常指"与任务相关的物体局部区域"。现有研究多通过目标检测、分割网络识别这些区域，或结合关键点表示（如模仿学习、约束优化、LLM推理）提升泛化性，但存在明显局限：仅适用于特定任务（如物体放置、工具使用），且仅能处理刚性物体。

提出的方法同样基于关键点可用性，但突破了上述局限：一方面，其动作表示具有通用性，可覆盖多种操作技能（如抓取、放置、插入）；另一方面，能直接处理可变形物体，扩展了应用场景。

机器人操作的端到端学习

端到端策略通过联合优化整个操作流水线，避免传统模块化中"感知-运动规划-控制"孤立训练的问题。现有方法多将原始感官输入直接映射到低阶控制动作（如关节力矩），或结合VLM构建VLA模型以利用大规模预训练的泛化能力，但动作表示多局限于"末端执行器位姿"或"关节角度"。

提出的方法属于端到端学习范畴，但核心差异在于动作表示：以可用性为基础的定向关键点表示，不仅能退化为传统末端执行器位姿（作为特例），还能在泛化性与精度间取得更好平衡。

三、核心方法：基于可用性的动作表示

基础控制权限定义

研究首先明确机器人在不同场景下的控制权限，为后续动作表示奠定基础，具体分为三类（如figure 1所示）：

对自身末端执行器：拥有完全6自由度（6-DoF）控制权限；
对抓取的刚性物体：拥有完全6-DoF控制权限（受可达性、碰撞等物理约束限制）；
对抓取的可变形物体：无完全控制权限（因可变形物体自由度超6），但可对"抓取的局部区域"进行6-DoF控制。

此外，对于未抓取的物体，机器人可"想象"抓取后的控制权限与操作行为，为规划提供前瞻性。

基础动作表示公式与实例

基础公式

神经网络以"场景观测（ o s c e n e o_{scene} oscene，如点云 R M × 3 R^{M×3} RM×3或图像 R H × W × 3 R^{H×W×3} RH×W×3）"和"任务描述（ f t a s k f_{task} ftask，如自然语言'拿起杯子'）"为输入，输出包含三部分的动作信息，公式如下：

n e t w o r k ( o s c e n e , f t a s k ) → ( o m a n i p u l a t e d , T a f f o r d a n c e , T a c t i o n ) network \left(o_{scene }, f_{task }\right) \to\left(o_{manipulated }, T_{affordance }, T_{action }\right) network(oscene,ftask)→(omanipulated,Taffordance,Taction)

其中：

o m a n i p u l a t e d o_{manipulated} omanipulated：机器人拥有（或将要拥有）控制权限的环境部分，实际中可用场景的边界框或分割掩码表示；
T a f f o r d a n c e T_{affordance} Taffordance：基于 o m a n i p u l a t e d o_{manipulated} omanipulated定义的"任务相关可用性帧"（属于SE(3)空间，含定向信息），刚性物体上固定，可变形物体上固定于局部区域；
T a c t i o n T_{action} Taction："目标动作帧"（属于SE(3)空间），当 T a f f o r d a n c e T_{affordance} Taffordance与 T a c t i o n T_{action} Taction对齐时，任务即可完成。

实例：倒水任务

以倒水任务（如figure 2所示）为例，该任务分为三个阶段，每个阶段对应不同的 o m a n i p u l a t e d o_{manipulated} omanipulated、 T a f f o r d a n c e T_{affordance} Taffordance与 T a c t i o n T_{action} Taction，且能自然适配不同形状、尺寸的杯子：

阶段1（拿起杯子）： o m a n i p u l a t e d o_{manipulated} omanipulated为机器人夹爪， T a f f o r d a n c e T_{affordance} Taffordance为夹爪TCP帧（工具中心点）， T a c t i o n T_{action} Taction为杯子的抓取位姿（本质是传统抓取检测问题）；
阶段2（倒水）： o m a n i p u l a t e d o_{manipulated} omanipulated变为杯子， T a f f o r d a n c e T_{affordance} Taffordance为杯口边缘， T a c t i o n T_{action} Taction为杯子相对于接水容器的"倒水构型"；
阶段3（放杯子）： o m a n i p u l a t e d o_{manipulated} omanipulated仍为杯子， T a f f o r d a n c e T_{affordance} Taffordance变为杯底中心， T a c t i o n T_{action} Taction为杯子在桌面上的"稳定放置构型"。

若将 o m a n i p u l a t e d o_{manipulated} omanipulated固定为夹爪、 T a f f o r d a n c e T_{affordance} Taffordance固定为夹爪TCP帧，该公式即退化为传统"末端执行器位姿"动作表示，体现了通用性。

方法扩展：覆盖复杂场景

多阶段任务扩展

长时程任务（如倒水）需分解为多个子任务，传统方法需手动设置每个子任务的描述，而提出的方法可从"全局任务描述（ f t a s k _ g l o b a l f_{task\_global} ftask_global）"自动生成子任务，且结合场景观测动态调整（如杯子已拿起则跳过"抓取子任务"）。公式如下：

要在Markdown中输出图中的公式，可使用LaTeX语法，如下所示：

其中 a s t a g e a_{stage} astage为子任务动作信息，子任务描述 f t a s k _ s t a g e f_{task\_stage} ftask_stage可通过现有LLM/VLM（如提示工程或微调）生成，该方法则补充了对应的可用性-动作帧对，形成完整子任务规划。

多动作候选扩展

实际操作中，多个动作候选可能均能完成任务（如多个抓取位姿、多个放置位置），这些候选来自两类情况：不同 o m a n i p u l a t e d o_{manipulated} omanipulated（如多个杯子）、同一 o m a n i p u l a t e d o_{manipulated} omanipulated的不同 T a f f o r d a n c e T_{affordance} Taffordance- T a c t i o n T_{action} Taction对（如同一杯子的多个抓取位姿）。

研究通过"分数匹配网络（扩散模型变体）"建模动作分布，实现多候选生成：对不同 o m a n i p u l a t e d o_{manipulated} omanipulated，通过目标检测/分割网络识别；对不同 T a f f o r d a n c e T_{affordance} Taffordance- T a c t i o n T_{action} Taction对，通过扩散模型的迭代去噪过程生成。

轨迹动作扩展

基础公式中 T a c t i o n T_{action} Taction是单一SE(3)帧，无法满足需连续运动的任务（如切水果、绘画）。因此，研究将其扩展为"SE(3)轨迹序列（ T a c t i o n _ s e q T_{action\_seq} Taction_seq）"，公式如下：

其中 K K K为时间步长， T a c t i o n _ s e q T_{action\seq} Taction_seq的语义是" T a f f o r d a n c e T{affordance} Taffordance沿该轨迹运动即可完成任务"，支持两种轨迹类型（如figure 3所示）：

稀疏轨迹：如切水果，仅需两个动作帧（ T a c t i o n _ 0 T_{action\0} Taction_0在水果上方， T a c t i o n _ 1 T{action\_1} Taction_1在水果下方）；
密集轨迹：如绘画，需数百个连续动作帧。

此外，还需考虑 T a c t i o n _ s e q T_{action\seq} Taction_seq初始点（ T a c t i o n _ 0 T{action\0} Taction_0）与当前 T a f f o r d a n c e T{affordance} Taffordance的对齐问题：

若要求对齐：可直接转换为末端执行器轨迹，在线高频评估（如10Hz）时可作为反应式策略；
若不要求对齐： T a f f o r d a n c e T_{affordance} Taffordance到 T a c t i o n _ 0 T_{action\_0} Taction_0的运动可视为"任务无关"，只需满足物理约束（如无碰撞、可达），轨迹生成可采用传统运动规划或学习型方法。

四、神经网络架构与实现

整体架构

架构分为"任务规划网络"与"动作预测网络"两部分，前者负责子任务分解与区域定位，后者负责具体可用性-动作帧预测，形成端到端流水线。

任务规划网络

输入：RGBD图像、全局任务描述（ f t a s k _ g l o b a l f_{task\_global} ftask_global）；

输出：子任务列表（ L i s t [ t s t a g e ] List[t_{stage}] List[tstage]），其中 t s t a g e = ( f t a s k _ s t a g e , o m a n i p u l a t e d , o e n v ) t_{stage} = (f_{task\stage}, o{manipulated}, o_{env}) tstage=(ftask_stage,omanipulated,oenv)， o e n v o_{env} oenv为" T a c t i o n T_{action} Taction需关注的环境区域"（如倒水任务中的接水容器）；

实现方式：微调Groma VLM（一种视觉-语言模型），利用其图像理解与语言生成能力，同时输出子任务描述与区域掩码（ o m a n i p u l a t e d o_{manipulated} omanipulated、 o e n v o_{env} oenv）。

动作预测网络

输入：场景点云（由RGBD图像深度通道生成，抓取检测任务使用现有数据集点云）、子任务特征（ h t a s k _ s t a g e h_{task\stage} htask_stage，即 f t a s k _ s t a g e f{task\_stage} ftask_stage的编码特征）；

输出：所有子任务的 T a f f o r d a n c e T_{affordance} Taffordance与 T a c t i o n _ s e q T_{action\_seq} Taction_seq；

核心设计（如figure 4所示）：

采用transformer架构，先将点云编码为特征序列，再将"带噪声的 T a f f o r d a n c e T_{affordance} Taffordance与 T a c t i o n _ s e q T_{action\_seq} Taction_seq"展平为 tokens 并与点云特征融合；
通过多轮自注意力层预测每个SE(3)元素（映射为 R 6 R^6 R6空间）的去噪向量，实现动作分布建模（扩散模型思想）；
引入交叉注意力层，融合点云特征与任务特征，并通过阶段掩码避免对"无任务阶段"的注意力计算与损失优化；
特例处理：当 o m a n i p u l a t e d o_{manipulated} omanipulated为夹爪时， T a f f o r d a n c e T_{affordance} Taffordance固定为"单位矩阵"，无需网络预测，仅输出 T a c t i o n _ s e q T_{action\_seq} Taction_seq。