论文链接 :https://arxiv.org/pdf/2605.18722
项目链接:https://dexoravla.github.io/
本文由清华大学、北京人工智能研究院、香港大学、上海交通大学等多所机构联合完成,聚焦具身智能领域的视觉 - 语言 - 动作(VLA)模型 ,提出了Dexora ------ 全球首个原生面向双臂、双手、高自由度(High-DoF)灵巧操作 的开源 VLA 系统,解决了现有 VLA 模型无法兼顾双臂协同与高精细手指操作的行业痛点。下文按照研究背景与动机、相关工作、系统整体设计、数据集构建、模型架构与训练方案、实验评测、消融实验、结论与未来方向 八大模块展开详细总结。

一、研究背景与核心动机
-
技术现状
VLA 模型是当前具身智能机器人的主流研究方向,但现有系统存在刚性局限 :主流方案二选一,要么针对双臂低自由度夹爪 控制,要么针对单臂灵巧手 操作,无法同时实现双臂协同 与高自由度手指精细动作。
-
实际任务痛点
大量真实机器人任务同时依赖两种能力:活塞装配需要双臂配合、从密集书架取书 / 拧瓶盖需要多关节手指的扭转、侧摆等精细动作,现有 VLA 均难以胜任。
-
本文目标
设计一套端到端 VLA 系统,原生支持双臂双手 36 自由度(36-DoF) 高灵巧操作;搭建配套数据采集管线与降噪训练方案,并验证模型的任务性能、分布外泛化与跨机器人形态迁移能力,同时完整开源代码、数据与模型。
二、相关工作梳理
论文从遥操作系统、机器人灵巧操作、VLA 模型三个维度梳理领域现状,并明确本文差异化创新:
-
遥操作系统
现有遥操作分为五大类:力觉主从示教、VR/MR 位姿追踪、纯视觉动作重定向、关节外骨骼、摇杆控制器。本文采用混合遥操作融合两类方案:外骨骼保证手臂运动精度,Apple Vision Pro 实现无穿戴手指追踪,兼顾精度、低延迟与易用性。
-
机器人灵巧操作
主流分为抓取合成 (扩散模型、流模型、VAE 等生成式方法)与策略学习 (强化学习、模仿学习)两大方向,但绝大多数研究局限于单手操作,缺少双臂协同能力。
-
VLA 模型
-
早期模型(RT-2、OpenVLA、GraspVLA):仅支持单臂夹爪;
-
近期双臂 VLA(π0、π0.5、GR00T N1、RDT-1B):虽支持双臂,但仍基于低自由度夹爪设计,无法适配高自由度灵巧手;
本文是首个突破该边界、面向双臂双手高 DoF 的 VLA 方案。
-

三、Dexora 整体系统设计(核心创新模块)
3.1 硬件平台:双臂双手 36 自由度机器人
整套执行平台由两部分组成,总计36 个独立自由度:
-
机械臂:2 台 6-DoF AIRBOT 机械臂,负责大范围空间运动;
-
灵巧手:一对 XHAND 灵巧手,单只手 12 个全驱动关节,拇指与食指支持侧向摆动,可复现人类拧瓶盖、扭转等典型灵巧动作。
3.2 混合遥操作管线(虚实一体采集)
核心设计思路:解耦手臂宏观运动与手指精细运动,同时驱动实体机器人与 MuJoCo 数字孪生,从源头缩小仿真 - 真实(Sim-Real)差距。
-
手臂运动采集:定制外骨骼背包,捕捉人体肩、肘、腕关节角度,直接映射至机械臂关节空间,无视觉逆运动学带来的抖动、奇异点问题,轨迹低延迟、无漂移。
-
手指运动采集 :基于 Apple Vision Pro 实现无标记 3D 手部骨骼追踪,经简单标定后映射到 XHAND,并强制约束关节极限,保障操作安全,无需佩戴数据手套。
-
虚实孪生同步:遥操作指令同时下发给真机与 MuJoCo 仿真孪生体;统一以 20Hz 采集四视角 RGB 图像 + 36 维机器人关节状态,操作人员可在仿真 / 真机之间无缝切换采集数据。
四、大规模数据集构建(仿真 + 真实 虚实互补)
遵循仿真保证规模与任务多样性,真实数据赋予灵巧能力的原则,构建两大配套数据集,全部面向双臂双手高 DoF 场景:
4.1 仿真数据集
-
数据来源:基于 MuJoCo 仿真环境,借助 Qwen2.5-VL 筛选 Objaverse 中的可操作物体(共 30 大类、297 个仿真物体);
-
任务与扩增:设计 200 项基础操作任务,采用 DexMimicGen 方案自动扩增轨迹;
-
规模:10 万条仿真轨迹、650 万帧、总时长 361 小时,仅包含拾取、装配等基础任务。
4.2 真实世界数据集
-
场景拓展:补充仿真难以复现的灵巧工具使用场景,共 347 个真实物体、17 个品类,设计 200 项任务(20% 为高难度灵巧任务);
-
数据规模:1 万条人工遥操作片段、292 万帧、总时长 177.5 小时;
-
标准化:数据格式兼容主流机器人数据集 LIBERO-2.1,并对外开源。

五、模型架构与数据质量感知训练方案
遥操作数据天然存在噪声(操作员水平差异、视觉遮挡、传感延迟、动作不稳定),论文提出 \\ "数据筛选 + 判别器打分 + 加权训练"\\ 的全链路降噪方案,是核心算法创新。
5.1 两步式数据预筛选(过滤劣质演示)
从原始真实数据中初步筛选高质量样本,作为判别器训练的正样本:
-
运动学初筛 :计算每条轨迹的加速度 ( AepA_{ep}Aep**)与加加速度 (Jerk, JepJ_{ep}Jep)**,两项指标数值越低代表动作越平滑;分别保留两项指标排名前 20% 的轨迹,取交集后剩余约 18% 数据。
-
任务复现验证 :对初筛后的轨迹做开环回放,保留无碰撞、完整完成任务 的片段,最终得到约15% 的高质量演示数据。
5.2 双模型架构:扩散 Transformer 策略 + 离线质量判别器
-
离线判别器(Discriminator)
-
结构:轻量化 Transformer(12 层,隐层 512 维)+ MLP 输出头;
-
输入:多视角图像、语言指令、动作片段、预训练策略的拟合度代理值logπt^\widehat{log \pi_t}logπt ;
-
功能:为每一段演示输出0~1 的质量分数,区分高 / 低质量数据;采用正 - 无标签(PU)损失函数训练。
-
-
扩散 Transformer 策略网络
-
主干:解码器式 Transformer(28 层,隐层 1024 维);
-
编码器:SigLip 处理视觉图像、T5 处理自然语言指令,以 "视觉 + 语言" 为条件生成动作;
-
功能:输出机器人 36 维连续关节动作序列;训练使用 DDPM 采样,推理阶段用 DPMSolver++ 加速。
-
5.3 三阶段训练流程(数据质量感知训练)
-
阶段 1:仿真数据预训练:使用海量仿真数据训练扩散 Transformer,让模型掌握基础移动、拾取等通用操作能力。
-
阶段 2:判别器训练:冻结预训练完成的策略网络,用筛选出的高质量真实数据训练判别器,为全部真实演示数据标注质量分数。
-
阶段 3:真实数据加权微调 :将判别器输出的质量分数转换为样本权重,加权计算扩散损失------ 压低低质量演示的权重、强化高质量数据的学习效果,抑制噪声对策略的干扰。

六、实验评测与结果分析
6.1 实验基础设置
-
硬件:8 张 NVIDIA A100 用于预训练 / 判别器训练,4 张 L20 用于微调,单张 RTX 4090 完成推理;
-
基线模型:选取 Diffusion Policy (DP)、π0\pi_0π0、GR00T N1 三款主流 VLA 作为对比;
-
评测规则:每个任务重复 20 轮测试,统计任务成功率。
6.2 真机任务性能评测
实验分为基础操作任务 和高难度灵巧任务两大场景,覆盖单臂、双臂协同动作:
-
基础任务(12 项)
包含拾取放置、装配拆解、铰接物体开关三类,Dexora 平均成功率89.6% ,7 项任务成功率超过 90%,双臂协同任务优势尤为突出;大幅领先 DP (34.2%)、π0\pi_0π0(50.4%)、GR00T N1(82.1%)。
-
灵巧任务(6 项)
包含用笔、切韭菜、揉面团、拧瓶盖等高精细动作,Dexora 平均成功率66.7% ;最优基线 GR00T N1 仅 51.7%,π0\pi_0π0为 26.7%,DP 仅 6.7%。
补充:拧瓶盖任务整体成功率偏低,原因是当前设备无触觉反馈、刚性指尖摩擦力不足,易出现打滑。
6.3 泛化能力测试
-
分布外(OOD)泛化
针对 "未知背景、未知光照、未知物体、遮挡、环境杂物、高度变化"6 种异常场景测试,Dexora 始终保持高成功率,环境鲁棒性极强。
-
跨机器人形态泛化(核心结论)
将36DoF 双臂双手 训练得到的策略,直接迁移至三类低自由度机器人 :单臂夹爪、双臂夹爪、单臂低 DoF 灵巧手。仅需简单的动作维度补全、相机掩码,无需重构模型。
实验证明:高自由度模型向低自由度机器人迁移难度远低于反向迁移;抓取类简单任务迁移效果极佳,灵巧任务存在小幅差距。该结论为 "以高 DoF 平台训练通用 VLA 控制器,再向下适配各类简易机器人" 提供了可行路径。
七、消融实验(验证核心模块有效性)
论文通过两组消融实验,证明真实数据 与质量判别器是模型实现高灵巧性的关键:
7.1 训练数据组成消融
对比三种训练方案:仅用仿真数据、仿真 + 50% 真实数据、仿真 + 全部真实数据。
-
基础任务:性能随真实数据增加小幅提升;
-
灵巧任务:性能提升极其显著(部分任务成功率从 0 提升至 65%+);
结论:仿真数据仅能帮助模型掌握基础动作,真实场景数据是机器人习得高自由度灵巧能力的必要条件。
7.2 数据质量判别器消融
对比 "有无判别器加权训练" 两种方案:
-
任务指标:加入判别器后,单臂、双臂任务成功率均明显提升;
-
运动指标:关节加速度、加加速度显著下降,动作轨迹更平滑,有效避免抖动、物体倾倒等问题;
结论:判别器可精准区分演示质量,通过加权训练抑制噪声数据,优化模型学习效果。
八、总结与未来研究方向
8.1 核心总结与创新点
-
系统创新 :Dexora 是首个开源 的原生支持双臂、双手、36-DoF 高自由度灵巧操作的 VLA 系统,填补了现有 VLA 模型的能力空白。
-
数据管线创新:提出 "外骨骼 + Apple Vision Pro" 混合遥操作,结合 MuJoCo 虚实孪生,高效构建虚实互补的大规模双臂灵巧操作数据集。
-
训练算法创新:设计数据质量判别器 + 加权损失的训练方案,有效解决遥操作数据噪声问题,提升动作平滑度与任务稳定性。
-
理论与应用价值:验证了 "高自由度 VLA 模型向下兼容低自由度机器人" 的可行性,为通用机器人控制器研发提供了新范式。
8.2 未来研究方向
-
触觉感知融合:引入触觉传感器,实现接触力、摩擦力闭环控制,解决拧瓶盖、精细抓取等依赖物理接触的任务;
-
长时序层级规划:结合记忆模块、子目标分解技术,构建层级化 VLA 模型,支持超长时序、多步骤复杂任务与工具链使用。