【论文解读】Dexora_ Open-source VLA for High-DoF Bimanual Dexterity

论文链接 ：https://arxiv.org/pdf/2605.18722

项目链接：https://dexoravla.github.io/

本文由清华大学、北京人工智能研究院、香港大学、上海交通大学等多所机构联合完成，聚焦具身智能领域的视觉 - 语言 - 动作（VLA）模型 ，提出了Dexora ------ 全球首个原生面向双臂、双手、高自由度（High-DoF）灵巧操作 的开源 VLA 系统，解决了现有 VLA 模型无法兼顾双臂协同与高精细手指操作的行业痛点。下文按照研究背景与动机、相关工作、系统整体设计、数据集构建、模型架构与训练方案、实验评测、消融实验、结论与未来方向 八大模块展开详细总结。

一、研究背景与核心动机

技术现状

VLA 模型是当前具身智能机器人的主流研究方向，但现有系统存在刚性局限 ：主流方案二选一，要么针对双臂低自由度夹爪 控制，要么针对单臂灵巧手 操作，无法同时实现双臂协同 与高自由度手指精细动作。
实际任务痛点

大量真实机器人任务同时依赖两种能力：活塞装配需要双臂配合、从密集书架取书 / 拧瓶盖需要多关节手指的扭转、侧摆等精细动作，现有 VLA 均难以胜任。
本文目标

设计一套端到端 VLA 系统，原生支持双臂双手 36 自由度（36-DoF） 高灵巧操作；搭建配套数据采集管线与降噪训练方案，并验证模型的任务性能、分布外泛化与跨机器人形态迁移能力，同时完整开源代码、数据与模型。

二、相关工作梳理

论文从遥操作系统、机器人灵巧操作、VLA 模型三个维度梳理领域现状，并明确本文差异化创新：

遥操作系统

现有遥操作分为五大类：力觉主从示教、VR/MR 位姿追踪、纯视觉动作重定向、关节外骨骼、摇杆控制器。本文采用混合遥操作融合两类方案：外骨骼保证手臂运动精度，Apple Vision Pro 实现无穿戴手指追踪，兼顾精度、低延迟与易用性。
机器人灵巧操作

主流分为抓取合成 （扩散模型、流模型、VAE 等生成式方法）与策略学习 （强化学习、模仿学习）两大方向，但绝大多数研究局限于单手操作，缺少双臂协同能力。
VLA 模型
- 早期模型（RT-2、OpenVLA、GraspVLA）：仅支持单臂夹爪；
- 近期双臂 VLA（π0、π0.5、GR00T N1、RDT-1B）：虽支持双臂，但仍基于低自由度夹爪设计，无法适配高自由度灵巧手；
  
  本文是首个突破该边界、面向双臂双手高 DoF 的 VLA 方案。

三、Dexora 整体系统设计（核心创新模块）

3.1 硬件平台：双臂双手 36 自由度机器人

整套执行平台由两部分组成，总计36 个独立自由度：

机械臂：2 台 6-DoF AIRBOT 机械臂，负责大范围空间运动；
灵巧手：一对 XHAND 灵巧手，单只手 12 个全驱动关节，拇指与食指支持侧向摆动，可复现人类拧瓶盖、扭转等典型灵巧动作。

3.2 混合遥操作管线（虚实一体采集）

核心设计思路：解耦手臂宏观运动与手指精细运动，同时驱动实体机器人与 MuJoCo 数字孪生，从源头缩小仿真 - 真实（Sim-Real）差距。

手臂运动采集：定制外骨骼背包，捕捉人体肩、肘、腕关节角度，直接映射至机械臂关节空间，无视觉逆运动学带来的抖动、奇异点问题，轨迹低延迟、无漂移。
手指运动采集 ：基于 Apple Vision Pro 实现无标记 3D 手部骨骼追踪，经简单标定后映射到 XHAND，并强制约束关节极限，保障操作安全，无需佩戴数据手套。
虚实孪生同步：遥操作指令同时下发给真机与 MuJoCo 仿真孪生体；统一以 20Hz 采集四视角 RGB 图像 + 36 维机器人关节状态，操作人员可在仿真 / 真机之间无缝切换采集数据。

四、大规模数据集构建（仿真 + 真实虚实互补）

遵循仿真保证规模与任务多样性，真实数据赋予灵巧能力的原则，构建两大配套数据集，全部面向双臂双手高 DoF 场景：

4.1 仿真数据集

数据来源：基于 MuJoCo 仿真环境，借助 Qwen2.5-VL 筛选 Objaverse 中的可操作物体（共 30 大类、297 个仿真物体）；
任务与扩增：设计 200 项基础操作任务，采用 DexMimicGen 方案自动扩增轨迹；
规模：10 万条仿真轨迹、650 万帧、总时长 361 小时，仅包含拾取、装配等基础任务。

4.2 真实世界数据集

场景拓展：补充仿真难以复现的灵巧工具使用场景，共 347 个真实物体、17 个品类，设计 200 项任务（20% 为高难度灵巧任务）；
数据规模：1 万条人工遥操作片段、292 万帧、总时长 177.5 小时；
标准化：数据格式兼容主流机器人数据集 LIBERO-2.1，并对外开源。

五、模型架构与数据质量感知训练方案

遥操作数据天然存在噪声（操作员水平差异、视觉遮挡、传感延迟、动作不稳定），论文提出 \\ "数据筛选 + 判别器打分 + 加权训练"\\ 的全链路降噪方案，是核心算法创新。

5.1 两步式数据预筛选（过滤劣质演示）

从原始真实数据中初步筛选高质量样本，作为判别器训练的正样本：

运动学初筛 ：计算每条轨迹的加速度 ( AepA_{ep}Aep**)与加加速度 (Jerk, JepJ_{ep}Jep)**，两项指标数值越低代表动作越平滑；分别保留两项指标排名前 20% 的轨迹，取交集后剩余约 18% 数据。
任务复现验证 ：对初筛后的轨迹做开环回放，保留无碰撞、完整完成任务 的片段，最终得到约15% 的高质量演示数据。

5.2 双模型架构：扩散 Transformer 策略 + 离线质量判别器

离线判别器（Discriminator）
- 结构：轻量化 Transformer（12 层，隐层 512 维）+ MLP 输出头；
- 输入：多视角图像、语言指令、动作片段、预训练策略的拟合度代理值logπt^\widehat{log \pi_t}logπt ；
- 功能：为每一段演示输出0~1 的质量分数，区分高 / 低质量数据；采用正 - 无标签（PU）损失函数训练。
扩散 Transformer 策略网络
- 主干：解码器式 Transformer（28 层，隐层 1024 维）；
- 编码器：SigLip 处理视觉图像、T5 处理自然语言指令，以 "视觉 + 语言" 为条件生成动作；
- 功能：输出机器人 36 维连续关节动作序列；训练使用 DDPM 采样，推理阶段用 DPMSolver++ 加速。

5.3 三阶段训练流程（数据质量感知训练）

阶段 1：仿真数据预训练：使用海量仿真数据训练扩散 Transformer，让模型掌握基础移动、拾取等通用操作能力。
阶段 2：判别器训练：冻结预训练完成的策略网络，用筛选出的高质量真实数据训练判别器，为全部真实演示数据标注质量分数。
阶段 3：真实数据加权微调 ：将判别器输出的质量分数转换为样本权重，加权计算扩散损失------ 压低低质量演示的权重、强化高质量数据的学习效果，抑制噪声对策略的干扰。

六、实验评测与结果分析

6.1 实验基础设置

硬件：8 张 NVIDIA A100 用于预训练 / 判别器训练，4 张 L20 用于微调，单张 RTX 4090 完成推理；
基线模型：选取 Diffusion Policy (DP)、π0\pi_0π0、GR00T N1 三款主流 VLA 作为对比；
评测规则：每个任务重复 20 轮测试，统计任务成功率。

6.2 真机任务性能评测

实验分为基础操作任务 和高难度灵巧任务两大场景，覆盖单臂、双臂协同动作：

基础任务（12 项）

包含拾取放置、装配拆解、铰接物体开关三类，Dexora 平均成功率89.6% ，7 项任务成功率超过 90%，双臂协同任务优势尤为突出；大幅领先 DP (34.2%)、π0\pi_0π0(50.4%)、GR00T N1(82.1%)。
灵巧任务（6 项）

包含用笔、切韭菜、揉面团、拧瓶盖等高精细动作，Dexora 平均成功率66.7% ；最优基线 GR00T N1 仅 51.7%，π0\pi_0π0为 26.7%，DP 仅 6.7%。

补充：拧瓶盖任务整体成功率偏低，原因是当前设备无触觉反馈、刚性指尖摩擦力不足，易出现打滑。

6.3 泛化能力测试

分布外（OOD）泛化

针对 "未知背景、未知光照、未知物体、遮挡、环境杂物、高度变化"6 种异常场景测试，Dexora 始终保持高成功率，环境鲁棒性极强。
跨机器人形态泛化（核心结论）

将36DoF 双臂双手 训练得到的策略，直接迁移至三类低自由度机器人 ：单臂夹爪、双臂夹爪、单臂低 DoF 灵巧手。仅需简单的动作维度补全、相机掩码，无需重构模型。

实验证明：高自由度模型向低自由度机器人迁移难度远低于反向迁移；抓取类简单任务迁移效果极佳，灵巧任务存在小幅差距。该结论为 "以高 DoF 平台训练通用 VLA 控制器，再向下适配各类简易机器人" 提供了可行路径。

七、消融实验（验证核心模块有效性）

论文通过两组消融实验，证明真实数据 与质量判别器是模型实现高灵巧性的关键：

7.1 训练数据组成消融

对比三种训练方案：仅用仿真数据、仿真 + 50% 真实数据、仿真 + 全部真实数据。

基础任务：性能随真实数据增加小幅提升；
灵巧任务：性能提升极其显著（部分任务成功率从 0 提升至 65%+）；

结论：仿真数据仅能帮助模型掌握基础动作，真实场景数据是机器人习得高自由度灵巧能力的必要条件。

7.2 数据质量判别器消融

对比 "有无判别器加权训练" 两种方案：

任务指标：加入判别器后，单臂、双臂任务成功率均明显提升；
运动指标：关节加速度、加加速度显著下降，动作轨迹更平滑，有效避免抖动、物体倾倒等问题；

结论：判别器可精准区分演示质量，通过加权训练抑制噪声数据，优化模型学习效果。

八、总结与未来研究方向

8.1 核心总结与创新点

系统创新 ：Dexora 是首个开源 的原生支持双臂、双手、36-DoF 高自由度灵巧操作的 VLA 系统，填补了现有 VLA 模型的能力空白。
数据管线创新：提出 "外骨骼 + Apple Vision Pro" 混合遥操作，结合 MuJoCo 虚实孪生，高效构建虚实互补的大规模双臂灵巧操作数据集。
训练算法创新：设计数据质量判别器 + 加权损失的训练方案，有效解决遥操作数据噪声问题，提升动作平滑度与任务稳定性。
理论与应用价值：验证了 "高自由度 VLA 模型向下兼容低自由度机器人" 的可行性，为通用机器人控制器研发提供了新范式。

8.2 未来研究方向

触觉感知融合：引入触觉传感器，实现接触力、摩擦力闭环控制，解决拧瓶盖、精细抓取等依赖物理接触的任务；
长时序层级规划：结合记忆模块、子目标分解技术，构建层级化 VLA 模型，支持超长时序、多步骤复杂任务与工具链使用。