摘要
视觉-语言-动作(VLA)模型已成为具身智能的核心方向,但现有系统局限于双夹爪控制 或单臂灵巧手操作。低维夹爪控制可用简单方法处理,但高维灵巧手控制亟需端到端 VLA 学习。
本文提出 Dexora ,首个原生支持双臂、双手、高自由度操作的开源 VLA 系统。主要贡献包括:
- 混合遥操作系统:外骨骼背包捕捉手臂 kinematics,Apple Vision Pro 实现无标记手部追踪
- 大规模数据集:100K 仿真轨迹(6.5M 帧)+ 10K 真实遥操作轨迹(2.92M 帧)
- 质量感知训练:判别器评估演示质量,为扩散 Transformer 提供样本权重
- 跨具身泛化:同一策略可迁移至单臂夹爪、双臂夹爪、单臂灵巧手
实验表明,Dexora 在灵巧任务上平均成功率 66.7%(基线 51.7%),基础任务达 90% 以上。
1. 研究背景与动机
1.1 现有 VLA 的局限性
| 类型 | 代表工作 | 局限 |
|---|---|---|
| 单臂夹爪 | RT-2, OpenVLA, GraspVLA | 无法处理双臂协调任务 |
| 双臂夹爪 | π0, RDT, GR00T | 灵巧性受限,只有 1-DoF 夹爪 |
| 单臂灵巧手 | DexGraspVLA | 无法完成双臂任务 |
关键洞察 :现有系统无法同时处理双臂协调 和高自由度手指操作,如图 1(a) 所示:
- 活塞插入:需要双臂协同
- 书架取书:手指比夹爪更有优势
- 开瓶盖:12-DoF 手指的侧向摆动优于 6-DoF
1.2 核心研究问题
能否构建一个 VLA 系统,既能实现双臂高自由度灵巧操作,又能向下兼容低自由度具身?
2. 系统设计

2.1 硬件与遥操作系统
硬件配置:
- 双臂:2 × 6-DoF AIRBOT 机械臂
- 双手:2 × XHAND 灵巧手(每手 12 个主动关节)
- 总自由度:36 DoF
混合遥操作:
| 模块 | 方案 | 特点 |
|---|---|---|
| 手臂控制 | 双外骨骼背包 | 肩-肘-腕角度直接映射,无漂移、低延迟 |
| 手指控制 | Apple Vision Pro | 无标记 3D 手部骨骼追踪,轻量化 |
| 仿真同步 | MuJoCo 数字孪生 | 相同驱动接口,降低 sim-to-real 差距 |
2.2 数据集构建
仿真数据(100K 轨迹,6.5M 帧):
- 基于 Objaverse 筛选 297 个可操作物体
- Qwen2.5-VL 自动生成场景布局和成功标准
- DexMimicGen 从种子演示扩增,每任务 500 轨迹
- 覆盖 200 个基础任务
真实数据(10K 轨迹,2.92M 帧):
- 相同硬件平台采集
- 增加灵巧操作场景(工具使用、双手协调)
- 每任务 50 条演示,共 200 任务
数据分布:
- 仿真:仅基础任务
- 真实:80% 基础 + 20% 灵巧任务
3. 方法框架
3.1 数据质量判别
问题:遥操作数据存在噪声(遮挡、延迟、操作者技能差异)
质量评估指标:
加速度 RMS:
Aep(τ)=1(T−6)D∑t=4T−3∑k=1Dat,k2A_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} a_{t,k}^2}Aep(τ)=(T−6)D1t=4∑T−3k=1∑Dat,k2
加加速度 RMS:
Jep(τ)=1(T−6)D∑t=4T−3∑k=1Djt,k2J_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} j_{t,k}^2}Jep(τ)=(T−6)D1t=4∑T−3k=1∑Djt,k2
筛选策略:
- 按加速度和加加速度排序,各取最低 20% 交集(保留约 18%)
- 开环回放验证,任务成功且无碰撞(保留约 15%)
3.2 判别器模型
输入特征 :状态 sts_tst、多视角图像 ot\mathbf{o}tot、语言指令 ℓ\ellℓ、动作块 at+L−1\mathbf{a}{t+L-1}at+L−1、策略兼容性代理 logπt\log \pi_tlogπt
策略兼容性计算 :
Et=1∣S∣L∑s∈S∑τ=tt+L−1∥ϵθ(⋅)−ϵ∥2E_t = \frac{1}{|S|L} \sum_{s \in S} \sum_{\tau=t}^{t+L-1} \| \epsilon_\theta(\cdot) - \epsilon \|^2Et=∣S∣L1s∈S∑τ=t∑t+L−1∥ϵθ(⋅)−ϵ∥2
logπt‾=−zscore(Et)\overline{\log\pi_t} = -\text{zscore}(E_t)logπt=−zscore(Et)
训练目标 (PU learning):
LD=0.5⋅Eτ∈Shigh−logd(τ)+Eτ∈U−log(1−d(τ))\mathcal{L}D = 0.5 \cdot \mathbb{E}{\tau \in S_{high}}-\\log d(\\tau) + \mathbb{E}_{\tau \in U}-\\log(1-d(\\tau))LD=0.5⋅Eτ∈Shigh−logd(τ)+Eτ∈U−log(1−d(τ))
3.3 扩散 Transformer 策略
架构特点:
- 解码器-only Transformer
- 条件输入:T5 编码语言,SigLip 编码图像
- 预测动作噪声,使用 DDPM 训练 + DPMSolver++ 加速推理
- 动作块长度 L=32L=32L=32
3.4 三阶段训练

| 阶段 | 数据 | 目标 |
|---|---|---|
| 预训练 | 仿真数据(100K 步) | 基础技能(抓取、放置、组装) |
| 判别器训练 | 真实数据高质量子集 | 学习评估演示质量 |
| 后训练 | 真实数据(加权) | 灵巧技能,损失加权:LR=∑wi∣ϵθ−ϵ∣2\mathcal{L}R = \sum w_i | \epsilon\theta - \epsilon |^2LR=∑wi∣ϵθ−ϵ∣2 |
4. 实验
4.1 实验设置
基线方法:
- Diffusion Policy (DP):条件去噪策略
- π0:VLA 流匹配动作生成
- GR00T N1:开源 VLA(VLM + DiT),设计用于人形机器人
协议:
- 控制频率 20Hz,动作块长度 32
- 每任务 100 条演示用于微调
- 每任务 20 次 rollout 评估
4.2 基础任务评估
任务类别:
- 抓取放置(5 任务)
- 组装/拆卸(5 任务)
- 关节物体(2 任务)
结果(成功率 %):
| 方法 | 苹果→盘子 | 碗→碗 | 双蛋→盒 | 提篮→篮 | 左块→右盘 | 平均 |
|---|---|---|---|---|---|---|
| DP | 60 | 65 | 30 | 10 | 25 | 34.2 |
| π0 | 75 | 70 | 45 | 30 | 60 | 50.4 |
| GR00T N1 | 95 | 100 | 75 | 60 | 80 | 82.1 |
| Dexora | 100 | 100 | 85 | 80 | 90 | 89.6 |
Dexora 在 7/12 任务上达到 90% 以上,双臂任务优势明显。
4.3 灵巧操作评估
任务:用笔、取书、切韭菜、放盘子、揉面团、拧瓶盖
| 方法 | 用笔 | 取书 | 切韭菜 | 放盘子 | 揉面团 | 拧瓶盖 | 平均 |
|---|---|---|---|---|---|---|---|
| DP | 5 | 10 | 0 | 15 | 0 | 0 | 6.7 |
| π0 | 20 | 45 | 60 | 20 | 15 | 0 | 26.7 |
| GR00T N1 | 45 | 60 | 85 | 60 | 60 | 0 | 51.7 |
| Dexora | 65 | 80 | 80 | 70 | 80 | 25 | 66.7 |
拧瓶盖成功率最低(25%),原因是缺少触觉反馈和刚性指尖导致打滑。
4.4 泛化能力
OOD 泛化(苹果→盘子任务,6 种条件):
| 条件 | 背景 | 光照 | 物体 | 遮挡 | 杂乱 | 高度 |
|---|---|---|---|---|---|---|
| 成功率 | 95% | 100% | 100% | 90% | 85% | 90% |
跨具身泛化:
| 配置 | 具身 | 任务 | 结果 |
|---|---|---|---|
| EC-1 | 单臂夹爪 (Franka) | 抓取放置 | 成功迁移 |
| EC-2 | 双臂夹爪 (ALOHA) | 双手递物 | 成功迁移 |
| EC-3 | 单臂灵巧手 (Unitree G1) | 简单灵巧 | 部分成功 |
高→低自由度映射比逆映射更容易,验证了"从丰富具身训练"的策略。
4.5 消融实验
数据组成的影响:
| 训练数据 | 苹果→盘子 | 堆叠环 | 用笔 | 切韭菜 |
|---|---|---|---|---|
| 仅仿真 | 90% | 60% | 0% | 10% |
| 仿真 + 50% 真实 | 95% | 75% | 35% | 60% |
| 仿真 + 全部真实 | 100% | 85% | 65% | 85% |
判别器的影响:
| 任务 | 指标 | 无判别器 | 有判别器 |
|---|---|---|---|
| 玉米→盘子 | 成功率 | 85% | 95% |
| 玉米→盘子 | 加速度 | 0.034 | 0.020 |
| 玉米→盘子 | 加加速度 | 0.043 | 0.032 |
| 提篮 | 成功率 | 55% | 80% |
| 提篮 | 加速度 | 0.041 | 0.023 |
| 提篮 | 加加速度 | 0.052 | 0.036 |
判别器显著提升成功率和运动平滑度。
5. 核心创新总结
| 创新点 | 说明 |
|---|---|
| 首个双臂-双手高 DoF VLA | 36 DoF 端到端控制,填补现有系统空白 |
| 混合遥操作系统 | 外骨骼 + Vision Pro,兼顾精度与便捷性 |
| 仿真-真实互补数据集 | 100K 仿真 + 10K 真实,规模大且具身匹配 |
| 质量感知训练 | 判别器评估演示质量,加权训练稳定策略 |
| 跨具身泛化 | 高→低自由度映射,同一策略适配多种机器人 |
| 开源 | 代码、数据、模型全开源 |
6. 局限性与未来方向
| 局限性 | 未来方向 |
|---|---|
| 缺少触觉反馈 | 集成触觉传感,闭环控制拧瓶盖等任务 |
| 单步预测 | 长时程推理与分层 VLA 规划 |
| 真实数据采集成本高 | 更高效的仿真到真实迁移 |
| 拧瓶盖成功率低 | 触觉 + 力控改进 |
7. 结论
Dexora 是首个开源的原生支持双臂、双手、36-DoF 的 VLA 系统。通过混合遥操作构建具身匹配的大规模数据集,引入质量感知训练提升策略稳定性,在基础任务(90%+)和灵巧任务(66.7%)上均显著超越现有基线。Dexora 还展示了从高自由度向低自由度具身的跨具身泛化能力,为构建通用机器人控制器提供了新路径。
8. 资源
- 项目主页:https://dexoravla.github.io
- 代码、数据、模型全开源
- 数据集格式:LIBERO 2.1 标准