X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

前言

之所以解读χ0、X-VLA,是因为年后有两个基于轮式叠衣服的项目,且在交付中,帮客户的技术团队培养起来,且人效翻倍,哪怕其就一个技术,也能做到原先需要两个人干的活,帮其以一敌二,从而一者帮落地,二者培养人、省人

为更好地利用和挖掘丰富多样的机器人数据源中的异质性,研究者

  1. 提出了一种新颖的 Soft Prompt(软提示)方法,在仅引入极少量额外参数的前提下,将提示学习的理念融入跨具身机器人学习中
  2. 并为每一种不同的数据源分别引入一组可学习嵌入
    这些嵌入充当具身特定的提示,并通过协同作用,使 VLA 模型能够有效利用不同具身之间变化的特征

此外,X-VLA中关注的跨本体,也是我司于26年起,准备用十年时间,为所有机器人造通用大脑从而「跨本体、跨任务(开柜门、开微波炉)、跨场景(从工业场景到家庭场景)、跨环境(从白天到黑夜)」的其中第一阶段

第一部分 X-VLA: Soft-Prompted Transformer as ScalableCross-Embodiment Vision-Language-Action Model

1.1 引言、相关工作、预备知识、异构软提示学习

1.1.1 引言

如原论文所说,在机器人领域(Brohan et al.,2023,2022),长期以来的核心目标一直是构建能够:

  1. 灵活地遵循任意人类指令
  2. 在多样化环境和不同具身形态中灵巧操作的自主智能体

其实具身智能追求的本质就是泛化能力、智能化能力

VLA 模型的成功,尤其是其对分布外OOD领域的快速适应能力,在很大程度上依赖于使用大规模且多样化的机器人数据集进行预训练,这些数据集需要覆盖广泛的机器人系统架构以及丰富多样的任务场景(O'Neill et al., 2024; Lin et al., 2025; Tan et al., 2024)

  1. 其中一个关键挑战在于,从硬件配置到数据采集策略,VLA 模型都要面对显著的异质性(Wang etal., 2024c)。这种异质性不仅体现在与具体具身相关的动作空间上(Liu et al., 2025b),还体现在诸如相机设置、视觉域以及任务分布等实验设置的差异上(Doshi et al., 2024b; Shiet al., 2025b; Zhen et al., 2024)

    这些多维度的差异会在不同具身之间带来严重的分布偏移以及显著的语义错配,从而干扰模型,并最终导致预训练和适应阶段的性能不佳(Zhenget al., 2025; Liu et al., 2025b; Doshi et al., 2024b)

  2. 现有 VLA 方法的主要做法,是为不同具身的动作空间分别分配独立的动作解码头以加以适配(Physical Intelligence et al., 2025;Bjorck et al., 2025),而其他同样关键的异质性来源则往往被不可避免地忽视

    然而,要实现对本体感知敏感的推理,并从异构的混合领域数据集中蒸馏出可共享的知识,就必须在这些迥异的配置之间实现统一与协调

    但这一问题长期未得到解决,原因在于:

    1. 不同硬件平台之间存在不一致性
    2. 缺乏标准化的数据采集协议
    3. 跨具身与跨环境所固有的领域偏移

作者宣称,这些障碍可以在几乎不需人工干预的情况下被有效克服,其方式是允许 VLA 模型通过一种简单的 Soft Prompt 机制学习领域特定的硬件配置(Lester et al., 2021)

  1. 受元学习和多任务学习研究洞见的启发,作者将机器人领域中多样的硬件配置和数据类型重新刻画为任务特定的特征,由此即可通过提示学习技术加以有效捕获(Wang et al., 2023; Liu etal., 2023c; Khattak et al., 2023; Liu et al., 2023b; Wu & Shi, 2022)
  2. 具体而言,为了建模前文所述在不同维度上的异质性,作者为每个数据源分配一组可学习的嵌入作为 Soft Prompts
    这些嵌入从特征融合的早期阶段起,就为构建 VLA 表征空间提供具备异质性感知能力的指导,从而赋予 VLA 模型更强的能力来利用并整合跨形体差异,提升其在不同硬件和任务配置上的泛化性能

因此,来自1 Institute for AI Industry Research (AIR), Tsinghua University, 2 Shanghai AI Lab, 3 Peking University的研究者提出 Soft-prompted Transformer,这是一种运行于异构平台之上的通用型、基于 flow-matching 的 VLA 框架,称为 X-VLA

具体而言,其

  1. 通过 Soft Prompts,X-VLA 可以在显式学习得到的各类硬件配置的引导下,适配多种系统与数据结构
  2. 借助一套多功能架构,能够同时编码多视角图像、语言提示和本体感知特征,X-VLA 只需堆叠标准 Transformer 编码器即可实现多模态特征融合与精确动作生成,从而支持可扩展的 VLA 训练

总之,作者实现了 X-VLA-0.9B,这是 X-VLA 的一个 0.9B 规模实例,使用精心设计的数据处理与学习策略进行训练

整体训练流程包含两个阶段:

  1. 阶段 I:预训练
    在一个经过精选的异构数据混合上对 X-VLA-0.9B 进行预训练,该数据包含来自 Droid (Khazatsky et al., 2024)、Robomind (Wu et al., 2025) 和 Agibot (Bu et al., 2025) 的 29 万个 episode,覆盖五种类型机械臂下的七个平台,范围从单臂到双臂配置
    通过利用软提示来吸收与具体具身形态相关的差异,模型学得了一种与具身无关的通用策略
  2. 阶段 II:领域自适应
    X-VLA-0.9B 被适配为目标领域中的可部署策略
    作者引入并优化一组新的软提示,用于编码新领域的硬件配置,同时保持预训练的主干网络冻结不变。在这些提示的基础上,通过微调将该策略有效地专门化到新的具身形态上

1.1.2 相关工作

// 待更

1.1.3 预备知识

首先,对于VLA 模型

其是一类将多模态理解与动作生成统一起来用于机器人控制的模型(Physical Intelligence等, 2025; NVIDIA 等, 2025)

  1. 通常,VLA 模型从在大规模图文语料库上预训练的VLM 初始化
    然后在包含专家轨迹的机器人数据集上进行微调:


    其中 表示在第 步的多模态观测(例如, 视觉输入, 语言指令, 本体感觉状态), 而 是其对应的专家动作

  2. 训练目标通常被表述为行为克隆,其中由 参数化的策略被优化以预测示范的动作片段

    其中 表示片段大小(Zhao 等,2023; Chi 等; Physical Intelligence 等,2025)

    通过最小化一个合适的监督损失

其次,对于流匹配策略

与其直接从观测 预测专家动作片段 ,流匹配策略通常学习一个速度场(Lipman et al., 2023;Physical Intelligence et al., 2025; Black et al., 2025),用于将噪声样本传输到目标动作片段

  1. 例如,可以通过从高斯噪声开始,并通过由神经网络参数化的速度场迭代地进行修正
    利用如Euler-Maruyama 方法这样的ODE 求解器生成一个动作A :

    这里,是一个连续时间变量

  2. 为了训练速度场,作者使用OT(最优传输)路径(Lipman et al., 2024, 2023),该路径将速度与噪声和专家数据之间的线性插值路径对齐:

    其中, 是均匀分布

    最终,通过最小化 , 策略学习在以观测为条件的情况下,逐步将随机噪声传输到专家片段上

最后,对于跨实体训练中的异质性

基于由H 个异质数据集构成的混合数据配方进行训练,,对于发展通用的VLA 模型是至关重要的(Doshi et al.,2024a; O�Neill et al.,2024)

  1. 每个数据集 都是在特定的硬件配置下收集的,其中 表示可能硬件设置的空间,例如机械臂运动学、控制接口、相机配置以及部署场景
  2. 这些因素引入了显著的异质性,不仅体现在低层次的动作信号和分布上,也体现在高层次的视觉理解上,如果不能有效应对,可能会导致预训练和适应效果不佳(Wang et al., 2024c; Zheng et al., 2025)

1.1.4 异构软提示学习(Heterogeneous Soft Prompt Learning)

为了解决异构性问题,作者进行了一项全面的实证研究,以探索潜在的设计选择,如图 2 所示

作者遵循 Reuss et al. (2025) 和 Bjorck et al. (2025) 构建一个标准的双系统架构作为起点,该架构利用 VLMs 进行多模态感知,并采用 DiT-style 解码器进行动作生成

在图 3中,作者从近期的高质量数据源构建了一个异构数据混合体,包括 AGIBOT-beta (Bu et al.,2025)、RoboMind (Wu et al., 2025) 和 Droid (Khazatsky et al., 2024)

该数据集覆盖了 5种机器人、7 套硬件配置,从单臂到双臂系统不等,提供了训练通才策略所需的足够规模和多样性。且在完全对齐的训练配方下评估所有方法,以确保公平对比

  • a) 领域特定动作投影
    该策略通过在模型输出端分配独立的投影头,将动作 token 映射到与具身形态相关的动作空间,从而应对异质性

    尽管这一方法在以往的具身基础模型中被广泛采用(Physical Intelligence et al.,2025; Bjorck et al.,2025;Team et al.,2025;Zheng etal.,2025;Liu et al.,2025b),其效果仅限于最终的动作生成阶段
    因此,它无法在更早的流水线阶段促进具身感知的推理,也忽略了其他关键的异质性来源,例如不同摄像机设置和任务分布的变化

    为规避这些局限性,作者识别出三种具有代表性的策略,用于提升在异质数据集上的预训练稳定性,如图2所总结。我们在下文中对这些策略进行分析,更多实验尝试见附录 E

  • b) HPT 风格投影
    受 Wang et al. (2024c) 启发,该方法旨在缓解观测输入中的跨域差异,并通过将来自不同领域的观测映射到一个共享表示空间中,以促进通用推理能力
    具体而言,还在多模态输入之上施加特定领域的投影层,对不同域的输入进行对齐,然后再将其送入主干网络

  • c) 语言提示
    另一种策略利用预训练VLM 的语言推理能力(Li et al., 2024a; Li et al.)
    在这种情况下,关于硬件配置 的自然语言描述被作为额外输入提供,使模型能够通过文本描述显式地关注具身特定的变化

  • d) 软提示Soft prompts
    最后,作者研究一种软提示方法,该方法遵循元学习和多任务学习的理念(Finn et al., 2017; Liu etal., 2023c)
    通过引入领域特定的可学习参数来吸收不同数据源之间的异质性

    被期望能够编码底层的硬件配置:,其中表示一个从硬件配置到提示空间的潜在映射

    需要注意的是, 并不像语言提示(c) 中那样由硬模板预先定义,而是随机初始化,然后通过端到端训练被隐式优化
    这些软提示在动作生成的早期阶段被注入模型,自动引导主干网络朝向具身感知的学习

尽管(b) HPT 风格投影和(c) 语言提示在概念上具有吸引力,但它们存在显著的局限性

  1. HPT 风格投影在观测处理的中间引入了不同的投影层,这会频繁改变特征分布,且容易破坏预训练VLM 的表征,往往导致训练过程不稳定
  2. 另一方面,语言提示依赖于精心编写的硬件配置文本描述,这在实践中极大地限制了其适应性和可扩展性

相比之下,软提示为编码特定领域的硬件配置提供了一种灵活且可扩展的解决方案。它综合了(b) 和(c) 两者的优点,在与骨干网络平滑集成的同时,保留了预训练表征,并消除了对手工标注的需求

图4 中的实证结果表明,软提示在异构数据集上始终能够实现更加鲁棒且稳定的训练

1.2 X-VLA:软提示 Transformer 增强型 VLA 模型

在 Soft Prompts 的基础上,作者提出 X-VLA,这是一种简洁的 VLA 架构,旨在实现对异构数据集的稳定预训练以及对新领域的高效适配

下面首先介绍整体架构设计,随后给出若干用于大规模预训练的关键技术。完整的消融实验路径见表 1,其中突出展示了本节所引入各组件的贡献

1.2.1 架构

作者设计的核心思想是为复杂的多模态输入构建一条精简的编码流水线。除 Soft Prompts 之外,X-VLA 还处理:

  1. 高维输入(多视角视觉和语言)
  2. 低维状态(本体感知和动作 token)

由于这些模态在语义和维度上存在显著差异,作者采用专门的编码策略对它们进行有效对齐,之后只需使用标准的 transformer 堆栈即可实现可扩展的策略学习

下面将详细介绍该编码流水线;完整的架构及更多设计探索见附录 C 和附录 D

  1. 对于高维观测流
    高维输入包括多视角图像,以及用于指定任务目标的语言
    不同于大多数先前方法
    Physical Intelligence et al., 2025
    Octo Model Team et al., 2024
    Bjorck et al., 2025

    直接将所有视角和指令输入到VLM 中,作者通过分配不同的编码器来解耦这些流

    一个预训练的VLM 编码器(X-VLA 中的Florence-Large (Xiao et al.,2024))用于主要的视觉-语言流(固定视角和指令),而辅助视角(如腕部视角)则通过共享的视觉骨干网络进行处理
    这一设计缓解了通用视觉-语言推理与具身推理之间的语义鸿沟:
    固定相机视角为高层任务推理提供稳定且信息丰富的上下文;
    而腕部相机输入虽然噪声大且变化快,却为细粒度操作提供关键线索,因此与语言流分开编码

  2. 对于低维本体感知-动作流
    本体感知状态 , 例如关节位置和末端执行器位姿,为推理和控制提供了具身特定的支撑。与动作相关的tokens 由用于flow-matching 生成的带噪动作样本组成

    由于 均为具有紧密相关物理语义的紧凑向量,因此作者在流匹配管道中将它们与其相应的时间嵌入 拼接在一起

    ++融合后的嵌入通过一个轻量级线性层被投射到高维特征空间++,从而能够与其他模态进行早期融合,并确保稳健的本体感受--时间锚定

1.2.2 定制化训练配方:预训练与微调流程、增强的数据处理

为了充分激发 X-VLA 的潜力,作者引入了一套精心设计的学习工程,以提升 X-VLA 训练的稳定性和有效性。下面将概述他们的训练配方,并梳理若干对实现稳定且高效训练至关重要的关键技术

1.2.2.1 预训练与微调流程

在预训练阶段,骨干网络 和软提示在流匹配目标 下进行联合优化。有关预训练超参数的详细信息,请参见附录G

预训练之后,骨干网络成为一种与具身形式无关的基础模型,能够在异构机器人之间快速适应

且为了在具有新硬件配置hnew 的新领域中部署该模型,作者提出了一种轻量级的两步自适应过程:

  1. 提示预热Prompt warm-up
    引入新的可学习提示集合

    首先在保持预训练权重冻结的情况下对提示进行预热
    The prompt is first warmed up while keeping the pretrained weights frozen
    这样一来,提示被映射以利用与具身形式无关的预训练特征,为下一轮联合训练提供良好的起点

  2. 联合策略自适应
    然后,联合优化骨干网络和预热后的提示词,联合地适应新域
    we jointly optimize both the backbone and the warmed-up prompt,jointly adapt to new domains.

    这个两阶段过程首先让 编码 的硬件特定设置,然后微调完整策略以实现有效的专门化,这与用于将LLMs 适配到VLMs的理念相同(Liu et al., 2023a; Li et al.)

最后,自定义学习率(LR)

  1. 在预训练和适配阶段,一个关键的稳定化技术是在软提示以及负责编码视觉和语言输入的视觉--语言模块上使用较低的学习率

  2. 这样的调整可以降低从预训练表示发生灾难性漂移的风险------这一问题也在 (Reuss et al., 2025; Driess et al., 2025) 中被提及------从而在预训练期间实现更平滑的优化,并在适配到新具身形态时获得更可靠的特化效果

    它有效地在视觉--语言模型中编码的一般知识与 VLA 模型所需的细粒度空间定位和动作对齐之间架起了一座桥梁

1.2.2.2 增强的数据处理
  • 对齐的动作表示
    动作是 VLA 模型的核心监督信号,其质量直接决定训练效果

    因此,作者将动作空间标准化为末端执行器(end-effector,EEF)位姿表示,包括:
    1)笛卡尔坐标系下的 EEF xyz 位置
    2)使用 Rotate6D 表示(Zhou et al., 2019)编码的绝对 EEF 旋转,以避免欧拉角和四元数表示中固有的不连续性
    3)夹爪的离散二值状态

    位置和旋转采用均方误差(mean-squared-error, MSE)损失进行优化,而夹爪状态使用二元交叉熵(binary-cross-entropy, BCE)损失进行优化
    这样能够在不同机体形态之间保持一致性,为可泛化的策略学习提供稳健的监督

  • 通过时间下采样进行意图抽象
    尽管低层级的动作轨迹为部署提供了所需的精确操作信号,但它们往往过于细粒度,并且可能包含大量由于人类随机性而产生噪声运动,因此并不适合用于预训练阶段实现高层语义对齐和意图建模

    为缓解这一问题,作者暂时对示教数据进行降采样,以构建动作意图的抽象表示
    具体来说,与其在每个时间步预测完整的末端执行器位姿,该流程被设计为生成一列30个锚点,用以概括接下来4秒内的期望轨迹

  • 平衡数据采样策略
    与常见的轮询(round-robin)数据采样策略(Wang et al., 2024c)相比,作者发现,要实现稳定训练,需要精心设计的数据打乱(shuffling)流水线

    不仅在不同域之间打乱样本,还在每个域内的不同轨迹之间进行打乱,从而确保在每一次迭代中都能接触到多样且平衡的数据混合
    这一策略有效减轻了分布偏差,降低了对主导域的过拟合,并有助于大规模预训练过程中的平滑收敛

1.3 实验

如原论文所述,在本节中,作者进行了广泛的实验,以研究:

  1. 伸缩行为:X-VLA 是否在模型规模、数据多样性以及数据规模方面表现出良好的伸缩特性?
  2. 适配性能:X-VLA 能否针对具有不同特征的新领域进行专业化适配?
  3. 可解释性:软提示是否能够捕获有意义的表示,从而反映混合数据源的异质性?

1.3.1 扩展性实验

首先,作者沿三个轴向研究X −V LA 的缩放行为:

  1. model capacity
  2. data diversity
  3. data volume

正如Tab. 1 所示,预训练过程中观测到的预测误差与下游自适应性能高度相关

  1. 因此,作者采用在保留验证集上,预测动作(经过flow-matching 去噪后)与真实动作之间的 误差作为主要评估指标
    对应的结果汇总于Fig. 5

    更多训练细节见Appendix G
  2. 值得注意的是,即使在最大测试配置X-VLA-0.9B(hidden size 为1024,包含24 个Transformer blocks),并在来自7 个数据源的290K 个episodes 上进行训练时,其缩放趋势依然没有出现饱和迹象
    这表明在这三个轴向上进一步扩展仍可能带来额外的性能提升。由于资源限制,作者采用该最大配置作为后续实验的默认模型

1.3.2 适应性实验

作者提出了迄今为止最全面的验证研究之一,在 5 个仿真环境和 3 个真实世界机器人平台上对 X-VLA-0.9B 进行了评估。更多实验结果见附录 D

  • 对于仿真基准
    作者在
    Libero(Liu 等,2024)
    Simpler(Li 等,2025)
    VLABench(Zhang等,2024a)
    RoboTwin-2.0(Chen 等,2025)
    Calvin(Mees 等,2022)
    NAVSIM(Dauner 等,2024)

    上进行评估

    这 6 个基准涵盖了数百种评测设置,覆盖单臂、双臂机器人系统和自动驾驶等场景,并从多种泛化维度进行评估,包括跨机体(cross-embodiment)、跨环境和跨任务适应等
    在其中的 5 个基准上,都达成了新的 SOTA,相较于汇总的既有模型取得了显著提升
    值得注意的是,在多个基准上成功率超过 90%,例如Simpler-WidowX(96%)、Libero(98%)以及 Calvin 第一阶段
    作者宣称,据他们所知,此前尚无模型在如此全面的评测设置下同时取得如此持续且显著的性能增益,这凸显了 X-VLA-0.9B 的优越性能,使其有望成为未来研究开发更先进模型的强有力基线(详见附录 H)

  • 对于真实世界实验
    作者还在物理机器人平台上评估 X-VLA-0.9B,遵循 BridgeData-v2 基准(Walke等,2023),评估细节可见附录 J,结果如图 7 所示

    X-VLA 在全部五个任务上都优于其他基线方法,每个任务分别用于测试不同的能力维度,作者认为,这表明 X-VLA 具有更出色的适应性

  • 灵巧布料折叠任务
    作者提出了一个具有挑战性的灵巧布料折叠任务,该任务要求将高度无序的布料抚平并整齐折叠。为支持这一工作,作者在双臂Agilex 平台上构建了一个高质量的布料折叠数据集,命名为Soft-Fold,该数据集由通过精心设计的流程收集的1,200 条轨迹组成。关于任务和数据集的详细描述见附录F

    重要的是,作者将发布该数据集,以促进未来在灵巧操作方面的研究。利用该数据集进行适配,我们的X-VLA-0.9B 模型在吞吐量上实现了接近100 % 的成功率,并能以每小时完成33 次折叠的速度运行------与闭源的π0 折叠模型(Physical Intelligence et al.,2025)相当,而后者很可能是在规模更大、质量更高的数据集上训练得到的

    为了进行公平比较,作者对π0-base 进行了微调,并在Soft-Fold 上从零开始训练了一个ACT(Zhao et al., 2023)模型,但它们都未能匹敌X-VLA-0.9B 的吞吐量,这凸显了X-VLA模型在灵巧操作方面的强大能力。更多的定性结果见附录F

  • 参数高效微调(PEFT)实验
    为了评估预训练的X -VLA-0.9B 骨干网络是否编码了与具身形式无关的特征,并且能否高效适配到新的设置中,作者采用了诸如低秩适配(LoRA)(Hu et al., 2022)之类的PEFT 技术

    且在三个基准上测试适配能力:Libero、Simpler-WidowX,以及AIRBOT 上的一个cloth-pick 任务,AIRBOT是一种在预训练阶段未见过的真实世界具身平台

    表3



    表7


    表明,仅使用9M 个可调参数(约占完整模型的1 %),该骨干网络就可以被引导成为一个强大的领域专用模型,分别在Libero 和Simpler-WidowX 基准上达到93 % 和54 % 的成功率
    这些分数可与完全微调的模型相媲美,例如,π0(Black et al.,2025)在Libero 和Simpler-WidowX 上分别达到94.2 % 和55.7 %,这表明X-VLA 具有很强的适应能力

1.3.3 深入分析

// 待更