DexVLA：通用机器人控制中具有插件式扩散专家的视觉语言模型

25年2月来自美的集团和华东师范的论文"DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control"。

让机器人能够在不同的环境中执行不同的任务是机器人学习的核心挑战。虽然视觉-语言-动作 (VLA) 模型已显示出可泛化机器人技能的前景，但要充分发挥其潜力，需要解决动作表示和有效训练方面的限制。当前的 VLA 模型通常侧重于规模化视觉-语言模型 (VLM) 组件，而动作空间表示仍然是一个关键的瓶颈。 DexVLA 框架，旨在提高 VLA 在不同机器人实施例中执行复杂、长期任务的效率和泛化能力。DexVLA 具有一种基于扩散的动作专家，可规模化到十亿个参数，专为跨具身学习而设计。一种具身课程学习策略促进有效的训练：(1) 在跨具身数据上对与 VLA 分离的扩散专家进行预训练，(2) 将 VLA 模型与特定具身对齐，以及 (3) 进行后训练以快速适应新任务。对多个实例（包括单臂、双手和灵巧手）进行全面的实验，证明 DexVLA 无需针对特定任务进行调整即可适应具有挑战性的任务，能够使用有限的数据在新实例上学习灵巧技能，并且能够仅使用直接语言提示完成复杂的长期任务（例如折叠衣物）。

DexVLA 如图所示：

让机器人能够在不同的环境中执行不同的任务是机器人技术面临的一个核心挑战。实现多功能性（即能够在不同的环境中解决各种任务，同时适应语言命令、环境限制和意外干扰）则更具挑战性。模仿学习 $26, 40, 24, 59, 58, 35$ ，特别是通过视觉-语言-动作 (VLA) 模型（例如 $5, 7, 23, 20$ ），在实现可泛化的技能方面表现出了良好的前景。

然而，实现万能的机器人基础模型愿景，面临着持续的挑战。两个关键瓶颈阻碍进展：1）数据稀缺：最先进的模型，如 OpenVLA $23$ /Octo $30$ ，依赖于海量数据集，如 Open-X 实例数据集（4,000 小时） $31$ 或更大的语料库，如 π0 $5$ 使用的 10,000 小时数据集。通过人工演示收集此类数据成本极高，且劳动密集型 $13, 18, 51, 53$ 。（2）架构不平衡：当前的 VLA 模型通常优先规模化视觉-语言模型 (VLM) 组件，即 OpenVLA 使用 7B VLM，而 π0 使用 3B VLM。尽管通过互联网规模的数据预训练增强了视觉和语言理解，但 VLM 组件仍然与机器人动作的具身感觉运动环境脱节。

视觉-语言-动作模型。最近的研究重点是开发在日益广泛的机器人学习数据集上训练的通用机器人策略 $12、15、13、18、17、24、36、9、14$ 。VLA 模型 $23、5、33、50、7、62、60、16、2$ 代表一种训练此类通用策略的有前途的方法。VLA 采用在大量互联网规模图像和文本数据上预训练的视觉-语言模型来控制机器人 $55$ 。这种方法有几个优点：利用具有数十亿个参数的大型视觉-语言模型主干，提供拟合大量机器人数据集的必要能力。此外，重用在互联网规模数据上预训练的权重可以增强 VLA 解释各种语言命令并推广到新目标和环境的能力。然而，目前的 VLA 模型并没有专门利用底层 VLM 的参数来学习灵巧的机器人技能。虽然有少数研究（如 π0 $5$ 和 TinyVLA $50$ ）引入外部动作专家来促进动作学习，但它们的训练流程仍然依赖于整个模型。另一个挑战是，即使是像 π0 这样先进的方法，尽管能够完成高度灵巧和长远的任务，也需要高级策略（如 SayCan $1$ ）的帮助来将任务分解为子目标。这使 VLA 能够按顺序完成子任务。

扩散模型。扩散模型 $11, 32, 19$ 已成为视觉生成的主导方法。扩散策略 $8$ 成功地将扩散模型应用于机器人学习，展示了其对多模态动作分布进行建模的能力。后续研究进一步发展扩散策略 $61, 48, 34, 38, 41, 42, 3, 4, 10, 25, 37, 47, 29$ ，将其应用于 3D 环境 $22, 57, 56, 54$ ，扩展其功能 $63$ ，提高其效率 $21, 34$ ，并融入架构创新。有许多研究正在研究扩散 VLA 的使用 $50, 5, 49$ 。尽管现有模型在各种任务上都实现了强大的性能和泛化，但它们主要依赖于预训练的视觉-语言模型能力。

本文提出的 DexVLA 架构概述如图所示：

DexVLA 模型主要基于 Transformer 语言模型主干。遵循 VLM 模型的通用框架，用图像编码器将机器人的图像观察结果投影到与语言tokens相同的嵌入空间中。对于多个摄像机视图，这些视觉tokens是连接的。VLM 组件生成两个输出：推理tokens和动作 tokens。动作tokens通过投影模块传递，该模块由两个具有 LayerNorm 的线性层组成。该模块类似于 LLaVA $28$ 等视觉-语言模型中设计的连接器，用于转换 VLM 的嵌入空间以符合动作专家的输入要求。推理tokens使用 FiLM 层注入策略模型，这些层缩放和漂移策略内投影层的参数。因此，该模型可以自主生成推理并利用扩散专家中的这种推理来指导动作生成。

按照标准的后融合 VLM 配方 $27, 28$ ，图像编码器将机器人的图像观测嵌入到与语言tokens相同的嵌入空间中。进一步用机器人特定的输入和输出（即本体感受状态和机器人动作）增强这个主干。

构建扩散专家。由于动作专家主导机器人动作的学习过程，因此设计良好的神经架构对于更好的视觉运动策略学习至关重要。用 Scale Diffusion Policy (ScaleDP $63$ )，它是 Transformer 架构中 Diffusion Policy 的变型，其中 ScaleDP 的最大版本最多有 1B 个参数。然而，简单的 ScaleDP 不是为跨具身预训练而设计的。本文设计一个多头输出，以便在具有各种机器人配置的 ScaleDP 上进行预训练。每个头负责一个机器人配置。此设置类似于 Octo。

训练目标。给定一批输入序列，整体训练损失定义为扩散损失（L_diff）和下一个token预测（NTP）损失（L_ntp）的加权组合。

具身课程学习

课程学习是一种训练策略，其中系统以从简单到复杂的顺序学习任务，反映了人类获得技能的方式。三阶段训练策略实施具身课程，其中智体首先从跨具身数据学习可泛化的运动技能（第 1 阶段），然后适配其特定的物理形式（第 2 阶段），最后改进特定于任务的行为（第 3 阶段）。这反映了人类的技能习得，其中基础能力（例如抓握）先于专业知识（例如折叠衣服）。通过分离与具身无关的学习和与具身相关的学习，与端到端训练相比，将数据需求减少 60%。

精心设计的训练策略，对于优化深度神经网络至关重要。与网络固有训练动态相一致的方法可确保更高效、更有效的数据利用。框架 DexVLA 通过将视觉-语言模型 (VLM) 与扩散专家相结合，瞄准一般机器人控制。利用其模块化架构（结合两个不同的组件），提出一个三阶段训练策略，系统地解决：（1）学习灵巧的操作技能，使模型能够完成复杂的任务；（2）跨具身学习，使模型适应不同的机器人平台。

1）第 1 阶段跨具身预训练：视觉-语言-动作模型可以看作是两个不同组件的组合。架构的顶部是视觉-语言模型 (VLM)，它处理视觉输入和语言指令，并将它们映射到共享的嵌入空间中。这个共享空间使用互联网规模的数据进行预训练，实现了广泛的功能，包括语言理解、多模态理解和各种其他视觉-文本任务。然而，尽管进行广泛的训练，但 VLM 缺乏与现实环境中的不同目标进行物理交互的能力。

为了有效地预训练动作专家，利用所有可用数据，同时将其暂时与VLM 组件分离。这样，就可以专注于开发独立于语言基础的强大动作生成能力。虽然 CNN 架构（例如 ResNet）通常用作视觉编码器，但 VLM 模型中的视觉编码器通常采用 Transformer 架构。因此，为了便于后续阶段的对齐，用 ViT 架构进行视觉编码。对于语言嵌入提取，用 DistilBERT $39$ 。然后使用 FiLM 层将生成的语言嵌入集成到模型中，这与之前的工作一致。对扩散专家进行预训练的一个关键见解是，必须将长期任务（例如，收拾桌子、折叠衣物）分解为子任务。这些任务通常持续超过 2 分钟，对于传播专家来说，从单一语言指令中有效学习具有挑战性。因此，在这些长期任务中注释子步骤指令，以提供更结构化的学习信号。使用子步骤进行预训练对于获得强大的性能至关重要。

在基于扩散的动作专家上预训练大规模机器人数据，而不是整个 VLA，具有几个优点。首先，与 VLA 相比，扩散专家的参数数量明显较少（10 亿对 30 亿），因此训练速度更快。从数量上看，在扩散专家上进行预训练，比在完整 VLA 模型上进行预训练快五倍。

2）第 2 阶段具身-特定对齐：虽然第 1 阶段从跨具身数据中学习基本的运动技能，但这种跨具身学习可能会损害目标（target）具身的性能，使其不适合现实世界的部署。第 2 阶段通过使用特定具身数据训练模型来解决此问题，将 VLM 中的抽象视觉语言表示与扩散专家对齐。因此，过滤数据集以仅包含特定具身的数据，确保每个样本涉及单个具身。视觉语言模型（如 LLaVA $28, 27$ ）中使用的镜像技术，此阶段专注于将目标具身的动作空间与其相应的相机视图和随附的语言指令对齐。具体而言，联合训练 VLM 模型、投影层和扩散专家使用特定具身的数据，同时冻结 VLM 的视觉编码器。

3）第 3 阶段任务特定适配：此阶段改进模型熟练流畅地执行下游任务的能力，类似于大语言模型中的后训练阶段，在该阶段，模型根据特定域的数据进行微调。对于更简单、不太依赖泛化的任务，例如折叠衬衫、收拾桌子或使用训练的目标拾取箱子，由于模型已经表现良好，因此不需要进行特定任务的训练。但是，复杂、需要灵活性的任务需要模型学习细粒度、依赖于上下文的操作。因此，有效的后训练依赖于高质量的专家演示数据集，该数据集展示一致且流畅的任务执行策略，这些策略专注于促进成功完成任务的行为。注：在第 2 阶段和第 3 阶段都使用了带注释的子步骤语言数据。但是，不是直接使用这些子步骤推理作为指令输入，而是将它们用作中间语言输出，迫使模型学习和生成这些子步骤语言描述。这种方法已被证明非常有效，使模型能够执行复杂的长期任务，例如折叠衣物。虽然其他 VLA（如 π0 $5$ ）也可以完成此类任务，但它们依赖于高级策略模型（如 SayCan $1$ ）来识别任务状态并提供下一步指示。相比之下，本文框架利用 VLM 主干作为隐式高级策略模型。这允许模型内部解释任务的状态并将这种理解注入策略以指导动作生成，从而无需外部高级策略模块。

实施细节如下。

在实验中，通过结合特定任务的后训练和自生成推理能力来解决一系列具有挑战性的多阶段任务。对于其中一些任务，数据在预训练中存在，但需要进行微调才能掌握。对于一些任务，预训练中没有数据。本次评估中的任务如图所示，包括：

衣物折叠（双手 AgileX）：此任务需要静态（非移动）双手系统来折叠衣物。衣物最初在箱子中处于随机皱褶状态，目标是取出衣物、折叠衣物并将其放在一堆之前折叠好的衣物之上。皱褶衣物的随机初始配置，带来了重大挑战，因为策略需要推广到任何配置。此任务存在于预训练中。

烘干机卸载（双手 AgileX）：在此，AgileX 移动机器人必须将衣物从烘干机中取出并放入洗衣篮中。此任务存在于预训练中。

分类（带夹持器的 Franka）：模型需要从右侧面板拾取所有物品，并将它们放置在左侧托盘的正确子部分中。左侧托盘分为四个子部分。所有新目标都属于与这四个部分相同的类别。此任务包括 200 次演示。此任务不在预训练数据中。

bin 拾取（带夹子的 Franka）：模型需要拾取右侧面板中的所有物品到左侧托盘中。与简单版本不同，所有物品都是新的，并且仅在测试时存在。此任务存在于预训练中。

清理桌子（双手 AgileX）：机器人必须清洁桌子，将碗碟和餐具放入垃圾桶，并将垃圾放入垃圾桶。与简单版本不同，所有物品都是新的。特别是，使用没见过的颜碗碟和外观不同的垃圾。此任务存在于预训练中。

在实验中，用 Qwen-2-VL 2B $46$ 模型作为基础视觉语言模型。最多使用三个摄像机视图。扩散专家包含 10 亿个参数。两个 MLP 层（每个层后跟 LayerNorm）将视觉-语言模型连接到动作专家。用 FiLM 将视觉语言模型的最终嵌入注入扩散专家，并将其应用于两个 MLP 中的每一个。在第 1 阶段训练期间，用收集的数据集。第 2 阶段训练仅限于共享相同具身的数据。第 3 阶段后训练是有选择性的，仅针对明确提到的任务进行。

预训练数据集共有 100 小时的数据，涉及 91 个不同的任务。详细的数据分配参见下图。

为清楚起见，以小时而不是轨迹报告数据量，因为任务的持续时间差异很大（即，洗衣折叠所需的时间比其他任务长得多）。这种数据量化方法与 π0 使用的方法一致。详细的超参数列于下表中。

评估是在 10 个任务的 4 种不同机器人配置上进行的。这些设置总结在以下列表中：

• 带夹持器的 Franka。具有 7 个自由度的 Franka Emika 机器人，配备 Robotiq 平行钳口夹持器。数据以 15Hz 的频率收集。

• 拥有灵巧手的 Franka。安装在 Franka Emika 机器人上的 Inspired 灵巧手。相机设置与夹持器版本相同，总共具有 12 维配置。具体来说，SE(3) 末端执行器姿势（3D 位置 + 3D 方向）加上 6 维手关节空间。数据以 15Hz 的频率收集。

• 双手 UR5e。两个 UR5e 机器人，每个机器人都配有 Robotiq 平行钳口夹持器和腕式摄像头。两个手臂之间放置了一个自上而下的摄像头。此设置共有三个摄像头视图和 14 维配置和动作空间。数据以 10Hz 的频率收集。

• 双手 AgileX。两个 6-DoF AgileX 臂，每个臂都配有腕式摄像头和底座摄像头。此设置具有 14 维配置和动作空间，总共由三个摄像头支持。数据以 10Hz 的频率收集。