【学习笔记】Dexora:面向高自由度双臂灵巧操作的开源 VLA 系统

摘要

视觉-语言-动作(VLA)模型已成为具身智能的核心方向,但现有系统局限于双夹爪控制单臂灵巧手操作。低维夹爪控制可用简单方法处理,但高维灵巧手控制亟需端到端 VLA 学习。

本文提出 Dexora ,首个原生支持双臂、双手、高自由度操作的开源 VLA 系统。主要贡献包括:

  • 混合遥操作系统:外骨骼背包捕捉手臂 kinematics,Apple Vision Pro 实现无标记手部追踪
  • 大规模数据集:100K 仿真轨迹(6.5M 帧)+ 10K 真实遥操作轨迹(2.92M 帧)
  • 质量感知训练:判别器评估演示质量,为扩散 Transformer 提供样本权重
  • 跨具身泛化:同一策略可迁移至单臂夹爪、双臂夹爪、单臂灵巧手

实验表明,Dexora 在灵巧任务上平均成功率 66.7%(基线 51.7%),基础任务达 90% 以上。


1. 研究背景与动机

1.1 现有 VLA 的局限性

类型 代表工作 局限
单臂夹爪 RT-2, OpenVLA, GraspVLA 无法处理双臂协调任务
双臂夹爪 π0, RDT, GR00T 灵巧性受限,只有 1-DoF 夹爪
单臂灵巧手 DexGraspVLA 无法完成双臂任务

关键洞察 :现有系统无法同时处理双臂协调高自由度手指操作,如图 1(a) 所示:

  • 活塞插入:需要双臂协同
  • 书架取书:手指比夹爪更有优势
  • 开瓶盖:12-DoF 手指的侧向摆动优于 6-DoF

1.2 核心研究问题

能否构建一个 VLA 系统,既能实现双臂高自由度灵巧操作,又能向下兼容低自由度具身?


2. 系统设计

2.1 硬件与遥操作系统

硬件配置

  • 双臂:2 × 6-DoF AIRBOT 机械臂
  • 双手:2 × XHAND 灵巧手(每手 12 个主动关节)
  • 总自由度:36 DoF

混合遥操作

模块 方案 特点
手臂控制 双外骨骼背包 肩-肘-腕角度直接映射,无漂移、低延迟
手指控制 Apple Vision Pro 无标记 3D 手部骨骼追踪,轻量化
仿真同步 MuJoCo 数字孪生 相同驱动接口,降低 sim-to-real 差距

2.2 数据集构建

仿真数据(100K 轨迹,6.5M 帧)

  • 基于 Objaverse 筛选 297 个可操作物体
  • Qwen2.5-VL 自动生成场景布局和成功标准
  • DexMimicGen 从种子演示扩增,每任务 500 轨迹
  • 覆盖 200 个基础任务

真实数据(10K 轨迹,2.92M 帧)

  • 相同硬件平台采集
  • 增加灵巧操作场景(工具使用、双手协调)
  • 每任务 50 条演示,共 200 任务

数据分布

  • 仿真:仅基础任务
  • 真实:80% 基础 + 20% 灵巧任务

3. 方法框架

3.1 数据质量判别

问题:遥操作数据存在噪声(遮挡、延迟、操作者技能差异)

质量评估指标

加速度 RMS:

Aep(τ)=1(T−6)D∑t=4T−3∑k=1Dat,k2A_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} a_{t,k}^2}Aep(τ)=(T−6)D1t=4∑T−3k=1∑Dat,k2

加加速度 RMS:

Jep(τ)=1(T−6)D∑t=4T−3∑k=1Djt,k2J_{ep}(\tau) = \sqrt{\frac{1}{(T-6)D} \sum_{t=4}^{T-3} \sum_{k=1}^{D} j_{t,k}^2}Jep(τ)=(T−6)D1t=4∑T−3k=1∑Djt,k2

筛选策略

  1. 按加速度和加加速度排序,各取最低 20% 交集(保留约 18%)
  2. 开环回放验证,任务成功且无碰撞(保留约 15%)

3.2 判别器模型

输入特征 :状态 sts_tst、多视角图像 ot\mathbf{o}tot、语言指令 ℓ\ellℓ、动作块 at+L−1\mathbf{a}{t+L-1}at+L−1、策略兼容性代理 log⁡πt\log \pi_tlogπt

策略兼容性计算

Et=1∣S∣L∑s∈S∑τ=tt+L−1∥ϵθ(⋅)−ϵ∥2E_t = \frac{1}{|S|L} \sum_{s \in S} \sum_{\tau=t}^{t+L-1} \| \epsilon_\theta(\cdot) - \epsilon \|^2Et=∣S∣L1s∈S∑τ=t∑t+L−1∥ϵθ(⋅)−ϵ∥2

log⁡πt‾=−zscore(Et)\overline{\log\pi_t} = -\text{zscore}(E_t)logπt=−zscore(Et)

训练目标 (PU learning):

LD=0.5⋅Eτ∈Shigh−log⁡d(τ)+Eτ∈U−log⁡(1−d(τ))\mathcal{L}D = 0.5 \cdot \mathbb{E}{\tau \in S_{high}}-\\log d(\\tau) + \mathbb{E}_{\tau \in U}-\\log(1-d(\\tau))LD=0.5⋅Eτ∈Shigh−logd(τ)+Eτ∈U−log(1−d(τ))

3.3 扩散 Transformer 策略

架构特点

  • 解码器-only Transformer
  • 条件输入:T5 编码语言,SigLip 编码图像
  • 预测动作噪声,使用 DDPM 训练 + DPMSolver++ 加速推理
  • 动作块长度 L=32L=32L=32

3.4 三阶段训练

阶段 数据 目标
预训练 仿真数据(100K 步) 基础技能(抓取、放置、组装)
判别器训练 真实数据高质量子集 学习评估演示质量
后训练 真实数据(加权) 灵巧技能,损失加权:LR=∑wi∣ϵθ−ϵ∣2\mathcal{L}R = \sum w_i | \epsilon\theta - \epsilon |^2LR=∑wi∣ϵθ−ϵ∣2

4. 实验

4.1 实验设置

基线方法

  • Diffusion Policy (DP):条件去噪策略
  • π0:VLA 流匹配动作生成
  • GR00T N1:开源 VLA(VLM + DiT),设计用于人形机器人

协议

  • 控制频率 20Hz,动作块长度 32
  • 每任务 100 条演示用于微调
  • 每任务 20 次 rollout 评估

4.2 基础任务评估

任务类别

  • 抓取放置(5 任务)
  • 组装/拆卸(5 任务)
  • 关节物体(2 任务)

结果(成功率 %)

方法 苹果→盘子 碗→碗 双蛋→盒 提篮→篮 左块→右盘 平均
DP 60 65 30 10 25 34.2
π0 75 70 45 30 60 50.4
GR00T N1 95 100 75 60 80 82.1
Dexora 100 100 85 80 90 89.6

Dexora 在 7/12 任务上达到 90% 以上,双臂任务优势明显。

4.3 灵巧操作评估

任务:用笔、取书、切韭菜、放盘子、揉面团、拧瓶盖

方法 用笔 取书 切韭菜 放盘子 揉面团 拧瓶盖 平均
DP 5 10 0 15 0 0 6.7
π0 20 45 60 20 15 0 26.7
GR00T N1 45 60 85 60 60 0 51.7
Dexora 65 80 80 70 80 25 66.7

拧瓶盖成功率最低(25%),原因是缺少触觉反馈和刚性指尖导致打滑。

4.4 泛化能力

OOD 泛化(苹果→盘子任务,6 种条件):

条件 背景 光照 物体 遮挡 杂乱 高度
成功率 95% 100% 100% 90% 85% 90%

跨具身泛化

配置 具身 任务 结果
EC-1 单臂夹爪 (Franka) 抓取放置 成功迁移
EC-2 双臂夹爪 (ALOHA) 双手递物 成功迁移
EC-3 单臂灵巧手 (Unitree G1) 简单灵巧 部分成功

高→低自由度映射比逆映射更容易,验证了"从丰富具身训练"的策略。

4.5 消融实验

数据组成的影响

训练数据 苹果→盘子 堆叠环 用笔 切韭菜
仅仿真 90% 60% 0% 10%
仿真 + 50% 真实 95% 75% 35% 60%
仿真 + 全部真实 100% 85% 65% 85%

判别器的影响

任务 指标 无判别器 有判别器
玉米→盘子 成功率 85% 95%
玉米→盘子 加速度 0.034 0.020
玉米→盘子 加加速度 0.043 0.032
提篮 成功率 55% 80%
提篮 加速度 0.041 0.023
提篮 加加速度 0.052 0.036

判别器显著提升成功率和运动平滑度。


5. 核心创新总结

创新点 说明
首个双臂-双手高 DoF VLA 36 DoF 端到端控制,填补现有系统空白
混合遥操作系统 外骨骼 + Vision Pro,兼顾精度与便捷性
仿真-真实互补数据集 100K 仿真 + 10K 真实,规模大且具身匹配
质量感知训练 判别器评估演示质量,加权训练稳定策略
跨具身泛化 高→低自由度映射,同一策略适配多种机器人
开源 代码、数据、模型全开源

6. 局限性与未来方向

局限性 未来方向
缺少触觉反馈 集成触觉传感,闭环控制拧瓶盖等任务
单步预测 长时程推理与分层 VLA 规划
真实数据采集成本高 更高效的仿真到真实迁移
拧瓶盖成功率低 触觉 + 力控改进

7. 结论

Dexora 是首个开源的原生支持双臂、双手、36-DoF 的 VLA 系统。通过混合遥操作构建具身匹配的大规模数据集,引入质量感知训练提升策略稳定性,在基础任务(90%+)和灵巧任务(66.7%)上均显著超越现有基线。Dexora 还展示了从高自由度向低自由度具身的跨具身泛化能力,为构建通用机器人控制器提供了新路径。


8. 资源

相关推荐
風清掦1 小时前
【STM32学习笔记-15】FLASH 闪存(Claude)
笔记·stm32·单片机·嵌入式硬件·学习
新时代牛马1 小时前
内核调试方法
linux·学习
我想我不够好。1 小时前
贝利亚 扎克
学习
MartinYeung52 小时前
[论文学习]CAMIA:基于上下文感知的成员资格推断攻击:针对预训练大型语言模型的深度分析
人工智能·学习·语言模型
chase。2 小时前
【学习笔记】Unified World Models:基于视频-动作耦合扩散的机器人预训练新范式
笔记·学习·音视频
一锅炖出任易仙2 小时前
创梦汤锅学习日记day32
学习·ai·游戏引擎
影寂ldy3 小时前
C# 事件完整学习笔记(发布订阅 + 自定义事件 + 内置 EventHandler)
笔记·学习·c#
fox_lht3 小时前
15.4.循环和迭代器的性能比较
开发语言·后端·学习·rust
海绵宝宝的月光宝盒3 小时前
6-机械设计基础物理知识
经验分享·笔记·其他·职场和发展·课程设计·学习方法