【学习笔记】Dexora：面向高自由度双臂灵巧操作的开源 VLA 系统

摘要

视觉-语言-动作（VLA）模型已成为具身智能的核心方向，但现有系统局限于双夹爪控制 或单臂灵巧手操作。低维夹爪控制可用简单方法处理，但高维灵巧手控制亟需端到端 VLA 学习。

本文提出 Dexora ，首个原生支持双臂、双手、高自由度操作的开源 VLA 系统。主要贡献包括：

混合遥操作系统：外骨骼背包捕捉手臂 kinematics，Apple Vision Pro 实现无标记手部追踪
大规模数据集：100K 仿真轨迹（6.5M 帧）+ 10K 真实遥操作轨迹（2.92M 帧）
质量感知训练：判别器评估演示质量，为扩散 Transformer 提供样本权重
跨具身泛化：同一策略可迁移至单臂夹爪、双臂夹爪、单臂灵巧手

实验表明，Dexora 在灵巧任务上平均成功率 66.7%（基线 51.7%），基础任务达 90% 以上。

1. 研究背景与动机

1.1 现有 VLA 的局限性

类型	代表工作	局限
单臂夹爪	RT-2, OpenVLA, GraspVLA	无法处理双臂协调任务
双臂夹爪	π0, RDT, GR00T	灵巧性受限，只有 1-DoF 夹爪
单臂灵巧手	DexGraspVLA	无法完成双臂任务

关键洞察 ：现有系统无法同时处理双臂协调 和高自由度手指操作，如图 1(a) 所示：

活塞插入：需要双臂协同
书架取书：手指比夹爪更有优势
开瓶盖：12-DoF 手指的侧向摆动优于 6-DoF

1.2 核心研究问题

能否构建一个 VLA 系统，既能实现双臂高自由度灵巧操作，又能向下兼容低自由度具身？

2. 系统设计

2.1 硬件与遥操作系统

硬件配置：

双臂：2 × 6-DoF AIRBOT 机械臂
双手：2 × XHAND 灵巧手（每手 12 个主动关节）
总自由度：36 DoF

混合遥操作：

模块	方案	特点
手臂控制	双外骨骼背包	肩-肘-腕角度直接映射，无漂移、低延迟
手指控制	Apple Vision Pro	无标记 3D 手部骨骼追踪，轻量化
仿真同步	MuJoCo 数字孪生	相同驱动接口，降低 sim-to-real 差距

2.2 数据集构建

仿真数据（100K 轨迹，6.5M 帧）：

基于 Objaverse 筛选 297 个可操作物体
Qwen2.5-VL 自动生成场景布局和成功标准
DexMimicGen 从种子演示扩增，每任务 500 轨迹
覆盖 200 个基础任务

真实数据（10K 轨迹，2.92M 帧）：

相同硬件平台采集
增加灵巧操作场景（工具使用、双手协调）
每任务 50 条演示，共 200 任务

数据分布：

仿真：仅基础任务
真实：80% 基础 + 20% 灵巧任务

3. 方法框架

3.1 数据质量判别

问题：遥操作数据存在噪声（遮挡、延迟、操作者技能差异）

质量评估指标：

加速度 RMS：

Aep(τ)=1(T−6)D∑t=4T−3∑k=1Dat,k2A_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} a_{t,k}^2}Aep(τ)=(T−6)D1t=4∑T−3k=1∑Dat,k2

加加速度 RMS：

Jep(τ)=1(T−6)D∑t=4T−3∑k=1Djt,k2J_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} j_{t,k}^2}Jep(τ)=(T−6)D1t=4∑T−3k=1∑Djt,k2

筛选策略：

按加速度和加加速度排序，各取最低 20% 交集（保留约 18%）
开环回放验证，任务成功且无碰撞（保留约 15%）

3.2 判别器模型

输入特征 ：状态 sts_tst、多视角图像 ot\mathbf{o}tot、语言指令 ℓ\ellℓ、动作块 at+L−1\mathbf{a}{t+L-1}at+L−1、策略兼容性代理 log⁡πt\log \pi_tlogπt

策略兼容性计算 ：

Et=1∣S∣L∑s∈S∑τ=tt+L−1∥ϵθ(⋅)−ϵ∥2E_t = \frac{1}{|S|L} \sum_{s \in S} \sum_{\tau=t}^{t+L-1} \| \epsilon_\theta(\cdot) - \epsilon \|^2Et=∣S∣L1s∈S∑τ=t∑t+L−1∥ϵθ(⋅)−ϵ∥2

log⁡πt‾=−zscore(Et)\overline{\log\pi_t} = -\text{zscore}(E_t)logπt=−zscore(Et)

训练目标 （PU learning）：

LD=0.5⋅Eτ∈Shigh $-logd(τ)$ +Eτ∈U $-log(1-d(τ))$ \mathcal{L}D = 0.5 \cdot \mathbb{E}{\tau \in S_{high}} $-\\log d(\\tau)$ + \mathbb{E}_{\tau \in U} $-\\log(1-d(\\tau))$ LD=0.5⋅Eτ∈Shigh $-logd(τ)$ +Eτ∈U $-log(1-d(τ))$

3.3 扩散 Transformer 策略

架构特点：

解码器-only Transformer
条件输入：T5 编码语言，SigLip 编码图像
预测动作噪声，使用 DDPM 训练 + DPMSolver++ 加速推理
动作块长度 L=32L=32L=32

3.4 三阶段训练

阶段	数据	目标
预训练	仿真数据（100K 步）	基础技能（抓取、放置、组装）
判别器训练	真实数据高质量子集	学习评估演示质量
后训练	真实数据（加权）	灵巧技能，损失加权：LR=∑wi∣ϵθ−ϵ∣2\mathcal{L}R = \sum w_i \| \epsilon\theta - \epsilon \|^2LR=∑wi∣ϵθ−ϵ∣2

4. 实验

4.1 实验设置

基线方法：

Diffusion Policy (DP)：条件去噪策略
π0：VLA 流匹配动作生成
GR00T N1：开源 VLA（VLM + DiT），设计用于人形机器人

协议：

控制频率 20Hz，动作块长度 32
每任务 100 条演示用于微调
每任务 20 次 rollout 评估

4.2 基础任务评估

任务类别：

抓取放置（5 任务）
组装/拆卸（5 任务）
关节物体（2 任务）

结果（成功率 %）：

方法	苹果→盘子	碗→碗	双蛋→盒	提篮→篮	左块→右盘	平均
DP	60	65	30	10	25	34.2
π0	75	70	45	30	60	50.4
GR00T N1	95	100	75	60	80	82.1
Dexora	100	100	85	80	90	89.6

Dexora 在 7/12 任务上达到 90% 以上，双臂任务优势明显。

4.3 灵巧操作评估

任务：用笔、取书、切韭菜、放盘子、揉面团、拧瓶盖

方法	用笔	取书	切韭菜	放盘子	揉面团	拧瓶盖	平均
DP	5	10	0	15	0	0	6.7
π0	20	45	60	20	15	0	26.7
GR00T N1	45	60	85	60	60	0	51.7
Dexora	65	80	80	70	80	25	66.7

拧瓶盖成功率最低（25%），原因是缺少触觉反馈和刚性指尖导致打滑。

4.4 泛化能力

OOD 泛化（苹果→盘子任务，6 种条件）：

条件	背景	光照	物体	遮挡	杂乱	高度
成功率	95%	100%	100%	90%	85%	90%

跨具身泛化：

配置	具身	任务	结果
EC-1	单臂夹爪 (Franka)	抓取放置	成功迁移
EC-2	双臂夹爪 (ALOHA)	双手递物	成功迁移
EC-3	单臂灵巧手 (Unitree G1)	简单灵巧	部分成功

高→低自由度映射比逆映射更容易，验证了"从丰富具身训练"的策略。

4.5 消融实验

数据组成的影响：

训练数据	苹果→盘子	堆叠环	用笔	切韭菜
仅仿真	90%	60%	0%	10%
仿真 + 50% 真实	95%	75%	35%	60%
仿真 + 全部真实	100%	85%	65%	85%

判别器的影响：

任务	指标	无判别器	有判别器
玉米→盘子	成功率	85%	95%
玉米→盘子	加速度	0.034	0.020
玉米→盘子	加加速度	0.043	0.032
提篮	成功率	55%	80%
提篮	加速度	0.041	0.023
提篮	加加速度	0.052	0.036

判别器显著提升成功率和运动平滑度。

5. 核心创新总结

创新点	说明
首个双臂-双手高 DoF VLA	36 DoF 端到端控制，填补现有系统空白
混合遥操作系统	外骨骼 + Vision Pro，兼顾精度与便捷性
仿真-真实互补数据集	100K 仿真 + 10K 真实，规模大且具身匹配
质量感知训练	判别器评估演示质量，加权训练稳定策略
跨具身泛化	高→低自由度映射，同一策略适配多种机器人
开源	代码、数据、模型全开源

6. 局限性与未来方向

局限性	未来方向
缺少触觉反馈	集成触觉传感，闭环控制拧瓶盖等任务
单步预测	长时程推理与分层 VLA 规划
真实数据采集成本高	更高效的仿真到真实迁移
拧瓶盖成功率低	触觉 + 力控改进

7. 结论

Dexora 是首个开源的原生支持双臂、双手、36-DoF 的 VLA 系统。通过混合遥操作构建具身匹配的大规模数据集，引入质量感知训练提升策略稳定性，在基础任务（90%+）和灵巧任务（66.7%）上均显著超越现有基线。Dexora 还展示了从高自由度向低自由度具身的跨具身泛化能力，为构建通用机器人控制器提供了新路径。

8. 资源

项目主页：https://dexoravla.github.io
代码、数据、模型全开源
数据集格式：LIBERO 2.1 标准