在现代机器人研究领域,长程任务执行(Long-Horizon Manipulation)始终是衡量智能系统先进性的核心指标之一。传统的视觉-语言-动作(VLA)模型在处理单一动作(如抓取、放置)时已表现出较高的可靠性,但在面对涉及数十个相互关联步骤的复杂指令(如"整理桌面"或"准备餐具")时,往往面临错误累积和鲁棒性不足的挑战 。
基于 Franka Research 3 (FR3) 硬件平台的最新研究成果------LoHo-Manip 框架,通过引入分层管理的策略,为解决上述难题提供了新的思路 。

图 1 展示的是LoHoManip 的核心工作流程
基于 LoHoManip 框架的 Franka Resea
FrankaResearch3:科研级灵活操作平台
Franka Research 3 机械臂是具身智能研究中广泛采用的标准化硬件平台 。其设计初衷是为研究人员提供一个高度灵活、易于集成的物理载体。
多传感器融合感知:典型的 FR3 硬件配置通常包含两个 Intel RealSense 摄像头:一个提供工作区的全局俯视图,另一个安装在夹爪上提供手眼视角观察 。这种双视角配置能够为算法模型提供丰富的环境感知数据 。
高精度的低层控制:FR3 支持复杂的短时操作,如平移、旋转及精细的夹取动作 。其执行器能够根据高层指令生成的空间轨迹(Trace)进行精确的路径跟踪 。
LoHo-Manip框架核心设计(面向FrankaResearch3优化)

图 2 是LoHoManip 整体框架总览
(一)分层解耦架构
-
LoHo-Manip 将长程操作拆分为任务管理层与动作执行层,适配 Franka Research3 的高精度控制需求:
-
任务管理器(专用 VLM):仅以当前观测 + 轻量文本进度记忆,输出剩余子任务序列与 2D 视觉轨迹,不依赖长时历史帧,减少分布偏移。
-
执行器(标准 VLA):接收渲染后的视觉轨迹提示,专注短程局部控制,充分发挥 Franka Research3 的柔顺与定位优势。
(二)进度感知规划与视觉轨迹机制
-
进度感知计划:以"已完成 + 待完成" 文本记忆维护任务状态,未完成步骤会持续保留,实现隐式重规划与故障恢复。
-
视觉轨迹(Visual Trace):以 2D 关键点路径提供空间指引,将长程决策转化为逐段跟踪问题,降低 Franka Research3 在多物体、干扰物场景下的定位歧义。
(三)闭环执行流程
输入高层指令与当前观测;
任务管理器输出待执行子任务与空间轨迹;
Franka Research3 按轨迹完成短程操作;
新观测回流,更新任务进度,循环直至完成。该闭环可自动处理抓取失败、物体错位等偏差,无需手工编写异常恢复逻辑。
面向FrankaResearch3的数据构建与训练流程

图 3:数据流水线。以 RGB 操作视频为输入,经视觉 - 语言模型处理后生成原子子任务与 2D 轨迹,形成训练监督数据。
(一)子任务与轨迹构建
基于视频时序分割,将整理、收纳等长任务拆分为抓取、放置等原子子任务;
提取 Franka Research3 末端执行器像素坐标,生成紧凑 2D 轨迹,作为监督信号;
采用仅当前帧 conditioning,避免长视觉历史带来的推理延迟与分布不匹配。
(二)训练数据来源
-
真机演示数据:基于 Franka Research3 采集约 100 条远程操作轨迹,覆盖单步与多步整理类任务;
-
合成故障恢复样本:模拟抓错物体等场景,提升框架对异常情况的处理能力;
-
辅助规划数据:增强指令理解与进度推理,提升跨场景泛化。

图4 :子任务规划与错误恢复示例。左侧展示任务分解与轨迹生成流程,右侧呈现模型识别语义错误后,触发修正操作并生成恢复轨迹的过程。
(三)训练与适配策略
任务管理器:冻结视觉编码器,微调语言模型,同步输出进度计划与 2D 轨迹;
执行器:在π0.5 等基础上微调,学习跟踪视觉轨迹,适配 Franka Research3 的动作空间。
基FrankaResearch3真机实验结果与分析
(一)任务场景
以桌面整理为核心:食物归位红盘、杂物归入黑箱;多步骤收纳、跨类别物体操作等,覆盖单步与多步、分布内与分布外场景。
(二)关键性能表现
-
长程任务成功率:在多步骤桌面操作中,整体完成率优于基线π0.5;
-
分布外泛化:对新物体类别、新空间布局、新指令组合,保持稳定表现;
-
误差恢复:可识别抓错物体等语义错误,自动生成修正子任务(如放下错误物体再重新抓取)并更新轨迹。

图 5:Franka Research3 多步任务执行结果。模型在分布内与分布外场景下,均可完成连续子任务操作。

图6:实体机械臂性能对比。LoHo-Manip在分布外场景中的成功率明显优于基线模型。
(三)工程化优势
模块复用:同一任务管理器可对接不同 VLA 执行器,降低 Franka Research3 适配成本;
推理效率:管理器低频调用,整体延迟可控,真机闭环流畅;
部署友好:轨迹以 2D 可视化呈现,便于调试与直观验证。
结论与展望
LoHo-Manip通过规划与执行解耦、进度感知重规划、视觉轨迹引导,有效提升 Franka Research3 在长程操作中的稳定性、鲁棒性与泛化能力,适合桌面整理、多步骤装配、物品收纳等场景。
当前方案以2D轨迹为主,对精密接触式操作表达有限,后续可扩展 3D 空间表示与richer交互时序;同时可在更多样化的动态环境与多机协作场景中进一步验证框架的扩展能力。整体而言,该分层框架为 Franka Research3 等协作机械臂落地复杂长程任务提供了可行的技术方案。