【论文自动阅读】GR-Dexter Technical Report

快速了解部分

基础信息(英文):

  1. 题目:GR-Dexter Technical Report
  2. 时间年月:2026.1
  3. 机构名:ByteDance Seed
  4. 3个英文关键词:Vision-language-action (VLA) models, bimanual dexterous-hand robot, cross-embodiment data

1句话通俗总结本文干了什么事情

字节跳动提出GR-Dexter框架,通过设计21自由度灵巧手硬件、VR手套遥操作系统,结合多数据源(视觉语言、跨机器人、人类/机器人轨迹)训练VLA模型,实现双灵巧手机器人的语言控制长时操纵与泛化抓取。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 现有VLA模型多限于夹持器机器人,难扩展到高自由度(DoF)双灵巧手;
  2. 双灵巧手存在动作空间大、手物遮挡频繁、实机数据收集成本高的问题;
  3. 高自由度灵巧手遥操作难度大,高质量演示数据稀缺;
  4. 模型对未见过的物体和语言指令泛化性差。

核心方法:关键技术、模型或研究设计(简要)

  1. 硬件:设计21DoF的ByteDexter V2灵巧手(带高密度触觉传感器,体积紧凑);
  2. 遥操作:Meta Quest头显+Manus手套组成双灵巧手遥操作系统,实时映射人类动作;
  3. 模型训练:4B参数Mixture-of-Transformer架构VLA模型,融合视觉语言、跨embodiment、人类/机器人轨迹数据协同训练。

深入了解部分

相比前人创新在哪里

  1. 硬件创新:ByteDexter V2在V1基础上增加1个拇指自由度(共21DoF),同时缩小体积,集成指尖触觉传感器,支持33种人类抓握类型;
  2. 遥操作创新:实现高自由度(21DoF/手)双灵巧手高效遥操作,解决复杂动作映射与安全控制问题;
  3. 数据与训练创新:首次融合四类数据源(视觉语言、跨机器人、人类轨迹、实机轨迹),通过轨迹重定向与标准化处理,大幅提升模型对未见过物体和指令的泛化性。

解决方法/算法的通俗解释

先造一个"类人手"(ByteDexter V2),用VR头显和数据手套远程控制机器人做动作、录数据;再把网上的"图+文字"数据、其他机器人的操作数据、人类日常动手的视频数据,和录的机器人数据放一起,按统一格式处理后,训练一个"能看懂语言、能看场景、能控动作"的模型,让机器人会做整理化妆台、用吸尘器等复杂任务,还能应对没见过的东西和指令。

解决方法的具体做法

  1. 硬件设计:
    • ByteDexter V2:手指(4指各4DoF)、拇指(5DoF),采用连杆传动,DIP关节欠驱动(模仿人类手指联动),指尖覆盖 piezoresistive 触觉传感器;
    • 双机器人系统:2个Franka FR3机械臂+2个V2手(共56DoF),配4个RGB-D相机解决遮挡问题。
  2. 遥操作:
    • 设备:Meta Quest头显(跟踪手腕)+Manus手套(跟踪手指)+踏板(启停控制);
    • 动作映射:通过序列二次规划(Sequential Quadratic Programming)将人类动作实时转为机器人关节指令,含跟踪丢失保护与碰撞避免。
  3. 模型训练:
    • 架构:基于GR-3的Mixture-of-Transformer,输出88维动作向量(臂关节、臂末端位姿、手关节、指尖位置);
    • 数据处理:视觉数据标准化尺寸,跨embodiment/人类轨迹通过指尖对齐重定向到V2手,过滤低质量轨迹;
    • 训练目标:视觉语言数据用"下一词预测",机器人/跨embodiment/人类轨迹用"流匹配(flow-matching)",混合训练。

基于前人的哪些方法

  1. VLA模型基础:沿用GR-3(2025)的Mixture-of-Transformer架构,视觉语言 backbone 基于Qwen2.5-VL(2025);
  2. 灵巧手设计:参考ByteDexter V1(2025)的连杆传动,改进ILDA手(2021)的关节解耦方案;
  3. 跨embodiment数据利用:借鉴Fourier ActionNet(2025)、OpenLoong Baihu(2025)等双灵巧手数据集的使用思路;
  4. 遥操作:参考VR手套+头显的遥操作方案(如AnyTeleop,2024),优化高自由度动作映射算法。

实验设置、数据、评估方式

  1. 实验任务:
    • 长时操纵:化妆台整理(6个子任务)、用吸尘器清纸屑、用夹子递面包;
    • 泛化抓取放置:抓取指定物体放入容器(含见过/未见过物体、见过/未见过指令)。
  2. 实验数据:
    • 实机遥操作数据:20小时(化妆台)+20小时(抓取放置);
    • 跨embodiment数据:Fourier ActionNet(140小时)、OpenLoong Baihu(100k轨迹)、RoboMIND(107k轨迹);
    • 人类轨迹:800+小时第一视角手动作数据;
    • 视觉语言数据:复用GR-3的图文数据集(含图像 caption、VQA等)。
  3. 评估方式:
    • 指标:任务成功率(多次实验平均值);
    • 对比组:plain VLA(仅实机数据)、GR-Dexter(无跨embodiment数据)、GR-Dexter(全数据);
    • 场景:in-domain(训练见过的布局/物体/指令)、OOD(未见过的布局/物体/指令)。

提到的同类工作

  1. 灵巧手硬件:Unitree Dex5、AgiBot OmniHand O12、Fourier FDH6、Shadow Hand、Dexcel Apex Hand、SharpaWave Hand、ILDA Hand、ByteDexter V1;
  2. VLA模型:GR-3、OpenVLA、RT-1/RT-2、RoboCat、π0.5、VIMA、DexVLA、DexGraspVLA;
  3. 数据集:Fourier ActionNet、OpenLoong Baihu、RoboMIND、HOT3D、Ego4D、Ego-Exo4D、DexYCB;
  4. 方法:WHIRL(人类视频迁移)、GR00T N1(人形机器人VLA)、RoboAgent(动作分块)、Diffusion Policy(扩散模型控动作)。

和本文相关性最高的3个文献

  1. Chilam Cheang et al. GR-3 Technical Report, 2025.(GR-Dexter模型架构的直接基础,提供VLA模型与视觉语言数据集)
  2. Ruoshi Wen et al. Dexterous Teleoperation of 20-DoF ByteDexter Hand via Human Motion Retargeting, 2025.(ByteDexter V2的前身V1设计,为硬件与遥操作提供基础)
  3. Yao Mu Fourier ActionNet Team. ActionNet: A Dataset for Dexterous Bimanual Manipulation, 2025.(核心跨embodiment数据集,支撑模型泛化能力提升)

我的

  1. 主要贡献是灵巧手的VLA。VLA是从GR-3改的。
相关推荐
汤姆yu2 分钟前
基于深度学习的车牌识别系统
人工智能·深度学习
虫小宝11 分钟前
电商AI导购系统设计:基于深度学习的商品推荐算法与架构实践
人工智能·深度学习·推荐算法
victory04311 小时前
关于深度学习的重要库 transformer
人工智能·深度学习·transformer
sysu_lluozh1 小时前
【深度学习】神经网络与深度学习-神经网络的编程基础
人工智能·深度学习·神经网络
Hcoco_me1 小时前
大模型面试题49:从白话到进阶详解SFT 微调的 Loss 计算
人工智能·深度学习·神经网络·算法·机器学习·transformer·word2vec
AI人工智能+1 小时前
银行回单识别技术:基于深度学习,实现多格式回单秒级解析,识别精度超99.5%
深度学习·ocr·银行回单识别
其美杰布-富贵-李1 小时前
Transformer 位置编码指南
人工智能·深度学习·transformer·位置编码
小北方城市网1 小时前
第 4 课:微服务 API 网关设计与接口全生命周期管理|统一入口与接口治理实战
java·大数据·运维·人工智能·python·深度学习·数据库架构
deephub1 小时前
Mosaic:面向超长序列的多GPU注意力分片方案
人工智能·深度学习·神经网络·transformer·注意力机制
Wu_Dylan2 小时前
液态神经网络系列(三) | 从 Neural ODE 到 Liquid Time-constant Networks(LTC):给神经网络注入物理灵魂
人工智能·深度学习·神经网络