
给机器人画几张"分镜脚本",剩下的它自己搞定
------pose-to-pose
目录
[01 铰接工具操控的多重技术壁垒](#01 铰接工具操控的多重技术壁垒)
[02 动画式分层流水线设计](#02 动画式分层流水线设计)
[03 实验表现:多工具实测与基线对比](#03 实验表现:多工具实测与基线对比)
[04 横向定位与技术局限](#04 横向定位与技术局限)
[05 借鉴动画关键帧,实现铰接工具仿真零真机迁移](#05 借鉴动画关键帧,实现铰接工具仿真零真机迁移)
在机器人灵巧操作领域,刚性物体的抓取、转运技术已逐步走向成熟,但带活动关节的铰接工具始终是行业卡点。
这类工具包括钳子、注射器、晾衣夹等日常用品,使用时要求机器人一边稳定握持,一边输出精准作用力驱动内部关节。
UC Berkeley联合CMU以及Stanford 等团队提出的MANA把铰接工具操控视作「动画关键帧插值」问题,用"粗粒度关键帧+细粒度轨迹补全"的分层思路化解难点。
01 铰接工具操控的多重技术壁垒
目前主流机器人操控方案面对铰接工具普遍存在三大短板,这也是MANA的核心攻关方向。
- 首先是力控与稳握的矛盾
铰接工具运作需要定向作用力,但受力方向往往和接触面法线方向不一致,机器人手指在施力时极易打滑,形成**"施力则不稳,稳握则无法驱动工具"**的两难局面;
- 其次是数据获取难度大
传统遥操作依靠人体姿态映射,难以复刻精细夹持力,采集的轨迹质量差;而纯仿真训练的策略,受物理参数、接触建模偏差影响,部署到真机后性能大幅下滑;
- 最后是方案通用性不足
现有研究大多针对单一工具定制策略,更换工具形态、关节结构后就需要重新训练,无法适配多样化的铰接工具场景。

▲使用铰接式工具时的物理挑战
当前也有部分基于强化学习、触觉反馈的改进方案,但要么依赖复杂奖励函数设计,要么需要搭配高精度传感硬件,部署成本居高不下。
MANA的差异化思路在于弱化端到端试错,结合动画制作的分层逻辑拆分任务,同时简化人工标注流程,从数据生成、轨迹规划、策略学习全链条降低落地门槛。
02 动画式分层流水线设计
MANA整体采用由粗到细的流水线架构,核心分为功能标注、关键帧生成、轨迹补全三大模块,整套数据生成流程高度自动化,单款工具的功能标注仅需一分钟左右,大幅减少人工介入成本。

▲MANA数据系统整体架构
功能区域标注与抓取关键帧生成
这是整个流程的基础。
工作人员仅需在工具三维模型上点击标注功能区域(如钳子手柄、注射器推杆等),系统就基于改进版Lightning Grasp算法,结合碰撞感知逆运动学(IK)优化,批量生成多样化抓取关键帧。
这些关键帧对应预抓取、稳定握持、工具驱动等核心状态,相当于动画中的关键画面,搭建起操控动作的整体骨架。
该模块专门优化了薄型工具的抓取逻辑,传统抓取算法容易出现手指与工具、地面碰撞,新增的穿透修正机制会在迭代中调整指尖位置,在规避碰撞的同时保证有效接触,适配厚度仅1厘米左右的小型铰接工具。

▲Mana框架
分阶段轨迹生成
框架将完整操控动作拆分为不同阶段,匹配不同技术方案,兼顾效率与精度:
- 预抓取阶段:
仅涉及机械臂移动、手指趋近工具,无复杂接触受力,采用GPU加速的RRTConnect运动规划算法生成无碰撞轨迹,无需强化学习,计算效率极高。
- 抓取与工具驱动阶段:
这两个阶段存在密集接触、动态受力变化,也是操控难度最高的部分。系统依托强化学习,以关键帧为起止点生成连续轨迹,重点学习手指位置与作用力的协同配合。
整套设计摒弃了单一算法包揽全流程的做法,根据不同阶段的物理特性匹配方案,既规避了纯强化学习探索效率低的问题,也解决了运动规划无法处理受力交互的缺陷。

▲机器人硬件与指尖结构设计
硬件配套优化
为匹配精细操控需求,研究团队对机器人指尖进行定制化设计。采用扁平硅胶接触面替代传统刚性半球指尖,柔性材质可自适应工具表面,增大接触面积、分散压力,进一步提升握持稳定性。
硬件平台搭载7自由度机械臂搭配16自由度Allegro灵巧手,辅以RealSense深度相机完成视觉感知,整套硬件组合针对小型铰接工具做了专项适配。
训练策略
MANA的策略全部在仿真环境中训练,为缩小仿真与真机的差距,研究团队引入全方位域随机化设计,从根源提升策略迁移能力。
仿真过程中会随机调整机器人PD控制器参数、工具质量、表面摩擦系数,同时叠加动作噪声、外部随机作用力,模拟真机运行时的电机抖动、环境扰动等真实工况。

▲控制框架
强化学习的奖励函数分为三部分,分别对应工具姿态匹配、机械手姿态约束、接触数量维持,无需复杂的力控奖励设计。
简单的奖励组合降低了调参难度,搭配仿真环境的多样化样本,让策略不局限于仿真设定的物理参数,具备跨设备、跨工具的适配能力。
整套训练方案不需要真机参与数据采集,仅依靠仿真就能产出可直接部署的操控策略。
03 实验表现:多工具实测与基线对比
研究选取夹子、钳子、注射器、管式夹四类形态、关节特性各异的铰接工具开展测试,设置遥操作、开环轨迹两大基线,从抓取、工具开合等多个维度评估成功率。

▲四类工具不同方案的操作成功率(单元格内两个数值对应两款同类型工具)
从实测数据来看,MANA综合表现显著优于两组基线。
- 传统遥操作受限于位置控制模式,无法输出足够驱动力,多数工具操作成功率不足30%;
- 开环轨迹方案复刻仿真动作,但无法适配真机接触偏差,成功率同样偏低。
而MANA在各类工具的抓取、开合任务中,成功率普遍达到70%-80%,部分工具抓取成功率可达80%。

▲消融实验结果折线图
不过,本次测试场景为桌面标准环境,光线、工具摆放位置规整,未叠加复杂遮挡、大扰动等极端工况。该成功率可以证明框架在常规室内场景的实用性,但不能直接等同于复杂工业、户外场景的表现。
团队还开展了消融实验,验证数据量、关键帧密度、力随机化强度对性能的影响。
实验表明,轨迹数量、关键帧数量越多,策略鲁棒性越强;仿真中力随机化的强度也和真机成功率正相关,这也印证了域随机化对于sim-to-real迁移的核心作用。

▲复合任务实测效果
在此基础上,团队进一步测试组合任务,包括钳子剪线、夹子夹持物品、注射器推注等完整流程。这类长时序任务需要连续完成多个动作,整体成功率有所下降,区间维持在50%-70%,反映出长链条动作仍是当前技术的主要短板。
04 横向定位与技术局限
当前机器人铰接工具操控主要分为三条技术路线:
- 一是基于遥操作的模仿学习,上手简单但力控能力弱,难以驱动硬质关节工具;
- 二是纯端到端强化学习,精度高但探索成本巨大,通用性差;
- 三是触觉/力反馈增强方案,依赖高精度传感器,硬件成本高昂。
MANA走出了一条折中路线:
**以动画分层思路拆分任务,结合运动规划与强化学习,用低成本仿真数据实现零样本迁移,既降低了硬件依赖,也减少了人工与试错成本。**对比同领域研究,它的核心优势是通用性与工程落地性,一套框架可适配多款铰接工具,无需逐个定制策略。

同时该框架也存在明显局限:
第一,机器人手部扭矩上限约0.7Nm,无法驱动需要10N以上大作用力的工具,适用工具范围受限;
第二,目前依赖桌面固定场景,面对动态遮挡、工具偏移等复杂工况稳定性不足;
第三,完整复合任务成功率偏低,长时序动作链的衔接能力有待提升;
第四,整套方案仍需搭配基础视觉感知,暂未实现全自主环境适配。
05 借鉴动画关键帧,实现铰接工具仿真零真机迁移
MANA 将计算机动画关键帧插值的成熟理念引入机器人灵巧操控,重构了铰接工具的任务拆解方式。
它证明了不必完全依赖机器人专属的控制算法,跨界思路可以有效破解传统技术瓶颈,同时其"仿真多样化训练+零样本真机迁移"的模式,也为灵巧机器人摆脱"真机试错"困境提供了新路径。
MANA作为一套轻量化、易部署的通用框架,降低了灵巧操作的研发门槛。现阶段它更适用于室内常规轻量作业场景,距离工业重载、动态复杂环境的落地还有较长距离。后续或将进一步结合触觉传感、长时序策略优化,进一步提升动作连贯性与抗干扰能力。
Ref
论文标题:Mana: Dexterous Manipulation of Articulated Tools