基于视觉运动扩散策略,搭建一套融合增强现实(AR)遥操作、运动重定向、异常演示筛选与多模态感知输入的灵巧手操控框架。以四指 Allegro 灵巧手为硬件平台,完成单手机器人自主拧瓶盖典型精细操作任务。依托 Meta Quest 3 AR 头显实现实时人手追踪与直观遥操作,结合逆运动学与运动重定向解决人手与机器人灵巧手运动学异构问题;采用 HDBSCAN 聚类与 GLOSH 全局 - 局部异常评分算法无监督剔除低质量演示样本;通过大量消融实验验证不同视觉观测、关节位置与关节力矩感知模态对任务成功率的影响。

真实场景实验结果表明:腕部相机 + 关节位置 + 关节力矩的组合观测方案性能最优,任务成功率可达 85%;适度剔除高异常演示样本不影响策略性能,过度过滤则会显著降低操作成功率。该框架可为家庭服务机器人、人形机器人及助残机器人的灵巧手精细操作技能学习提供有效参考。
手部精细操作是机器人领域长期存在的核心挑战,多指灵巧手依靠多手指协同与接触力精准调控,能够完成拧瓶盖、物体姿态调整、精密装配等类人操作,是机器人走向生活化、智能化作业的关键末端执行器。传统灵巧手操控多采用解析控制、预规划抓取策略以及强化学习方法,解析建模难以应对复杂接触动力学变化;强化学习依赖大规模环境交互,训练周期长、泛化性弱;传统遥操作方案多采用外骨骼、光学动捕或专用传感设备,存在标定漂移、遮挡敏感、缺乏实时视觉反馈等缺陷,难以批量获取高质量专家演示数据。
面向 Allegro 四指灵巧手拧瓶盖任务,构建完整的灵巧手技能学习体系:搭建 AR 遥操作系统实现低成本、高响应的专家演示采集;设计完整人手 - 灵巧手运动重定向流程与 DH 参数逆运动学求解方法;引入基于 HDBSCAN-GLOSH 的无监督异常演示剔除机制;通过多组消融实验对比不同相机视角、关节状态与力矩输入的效果,在真实环境中验证视觉运动扩散策略用于灵巧手手部精细操作的有效性与鲁棒性。

手部精细操作要求手指运动与接触力高度协同,早期研究依赖解析方法与预计算抓取规则,只能实现简单物体姿态调整。随着深度学习与模仿学习的发展,研究人员利用强化学习与自监督学习提升灵巧手操作能力,已有工作实现魔方复原、物体重定向等任务,但多数研究难以完成拧瓶盖这类全自主复杂旋拧操作,且缺少多模态感知输入的系统性对比分析。本文将视觉运动扩散策略拓展至手部旋拧精细操作,结合腕部视觉与本体感知信号提升策略性能。
高质量演示数据是视觉运动策略训练的基础,现有灵巧手遥操作主要采用外骨骼穿戴设备、光学动作捕捉系统以及专用手部追踪传感器。这类方案普遍存在设备昂贵、标定繁琐、易受遮挡、无实时视觉反馈等问题。本文采用消费级 AR 头显搭建遥操作平台,依托实时手部追踪与透视可视化反馈,结合运动重定向与逆运动学,实现自然、低延迟、低成本的演示数据采集。

扩散模型已成为机器人视觉运动控制的主流框架,相比强化学习无需大量在线环境交互,可基于离线专家演示数据完成策略训练,具备强泛化性与长时序运动规划能力。现有研究多聚焦双臂移动操作、简单单臂抓取,针对多指灵巧手内生手部操作的研究较少。本文基于时序卷积网络的视觉运动扩散策略,适配灵巧手连续精细动作输出,探究多模态感官输入对策略的增益效果。
低质量与离群演示样本会严重降低策略训练效果,人工筛选耗时耗力且主观性强。现有异常检测包含统计启发式、密度聚类与机器学习方法。本文采用 HDBSCAN 层次密度聚类结合 GLOSH 全局 - 局部异常评分,无需标注即可自动识别并剔除劣质演示轨迹,提升数据集纯净度与训练稳定性。
Allegro 灵巧手 AR 遥操作系统设计
整套系统以 ROS 为通信与处理核心,遥操作模块采用 Meta Quest 3 AR 头显完成人手追踪,通过 Unity XR Hands 获取手部骨骼顶点位姿,经 ROS-TCP 传输至后端处理节点;经由手部运动重定向与逆运动学求解,输出 Allegro 灵巧手各关节增量控制量。数据采集阶段同步保存顶部相机图像、腕部相机图像、灵巧手关节位置与关节力矩信息;自主运行阶段,训练后的视觉运动扩散策略以多模态观测为输入,逐帧输出关节动作增量,完成拧瓶盖全流程操作。

基于定制 Unity 应用读取 AR 头显手部追踪数据,输出 26 维手部顶点姿态数组,通过网络协议接入 ROS 生态。操作者佩戴 AR 头显处于透视可视模式,系统叠加手部追踪可视化图形,形成实时视觉反馈闭环,保证遥操作的精准性与响应性。同时设置左手握拳手势作为录制启停指令,无需额外控制器,操作简洁直观。
研究共采集 300 组拧瓶盖专家演示数据,人为在工作空间内随机设置物体摆放位置,保证初始位姿的多样性。单条演示平均时长 47.5 秒,数据集总时长 2.37 小时,折合实时执行时长约 5 小时,充分覆盖不同摆放位置、不同操作轨迹的任务场景。
由于人手与 Allegro 灵巧手骨骼结构、关节布局、运动范围存在显著差异,必须进行运动重定向映射,具体分为三步:第一,姿态初始对齐。舍弃人类小指结构,利用食指、无名指指节与腕部特征点构建平面,完成人手与灵巧手姿态定向对齐,并对齐中指根部实现平移校正。第二,手指关节长度缩放。通过计算人手与机器人手指各关节长度之和的比值作为缩放系数,统一两者手指尺寸比例,适配运动学结构差异。第三,指尖偏移补偿。将拇指指尖向腕部偏移 2.3 厘米,弥补人类拇指活动范围限制;将食指、中指、无名指指尖向手掌平面偏移 3.4 厘米,降低操作者手指弯折幅度,实现自然舒适的遥操作映射。

系统采用各手指独立控制策略,固定食指、中指、无名指根部关节角度为 0°,避免多指干涉碰撞。分别建立多指 DH 参数模型,通过逆运动学求解重定向后指尖目标位置对应的各关节转角,保证单指运动流畅、多指协同稳定,满足精细旋拧操作的控制需求。
本文采用基于一维时序卷积网络的视觉运动扩散策略,将机器人控制建模为条件去噪扩散过程。策略不直接预测动作,而是从高斯噪声开始,通过噪声预测网络迭代去噪、逐步细化动作序列;利用 FiLM 特征线性调制机制,将视觉观测作为条件约束卷积网络,保证动作时序一致性与环境适应性。策略采用闭环观测更新机制,依据实时图像与本体状态持续修正动作序列,适配手部精细操作长时序、动态调整的运动特征。
模型超参数统一设置:预测时域 16 步、动作时域 8 步、历史观测 3 步,训练迭代 600 轮,采用 10% 验证集与 25 轮耐心早停策略,防止模型过拟合。

为解决人工采集演示轨迹质量参差不齐的问题,本文提出无监督异常检测流程:首先使用预训练 ConvNeXt-Tiny 特征提取模型,分别对顶部相机与腕部相机图像进行特征嵌入;再利用 HDBSCAN 对双视角特征做层次密度聚类,最小聚类尺寸设为 2;随后通过 GLOSH 算法计算每条演示的局部密度匹配度,得到异常评分;最终取双视角评分均值作为综合异常分数,按 50%、70%、90% 百分位设置过滤阈值,筛选劣质演示轨迹。
该方法无需人工标注,可自动识别抓取失效、轨迹偏移、动作紊乱等异常样本,在保留有效操作模态的同时净化训练数据集。
为探究两大核心问题:不同观测模态对任务性能的影响、异常演示剔除对成功率的作用,本文设置多组对比策略:
-
全模态策略:包含顶视相机、腕部相机、关节位置、关节力矩全部输入;
-
消融策略:分别去除顶视相机、去除腕部相机、去除关节力矩,对比各模态贡献;
-
过滤对比策略:分别剔除异常得分前 10%、30%、50% 的演示样本,验证过滤程度的影响。
每组策略进行 20 次真实场景测试,限定 2 分钟内完整拧开瓶盖即为任务成功,统一随机生成物体初始摆放位置,保证评测公平性。

实验结果表明:全模态基线策略成功率仅 55%;剔除关节力矩后,成功率降至 30%,频繁出现瓶子滑脱、抓取不稳,证明关节力矩反馈是判断抓取状态、调控操作力度的关键;仅保留顶视相机时成功率达 70%,但俯视视角不符合人形机器人实际部署场景,实用性差;仅保留腕部相机 + 关节位置 + 关节力矩的策略表现最优,成功率高达 85%,且硬件部署简单、视角贴合实际作业需求,适合人形与移动机器人搭载。
实验同时证明,并非相机视角越多性能越好,冗余视觉信息反而会引入干扰,精简有效的多模态组合更适配灵巧手精细操作。