51c自动驾驶~合集33

我自己的原文哦~https://blog.51cto.com/whaosoft/12170501

#UAD

爆拉UniAD近40%，推理提升3倍！UAD：全新纯视觉端到端SOTA

动机来源于对当前E2E AD模型仍模仿典型驾驶堆栈中模块化架构的观察，这些模型通过精心设计的监督感知和预测子任务为定向规划提供环境信息。尽管取得了突破性的进展，但这种设计也存在一些缺点：

1）先前的子任务需要大量高质量的3D标注作为监督，给训练数据的扩展带来了重大障碍；

2）每个子模块在训练和推理中都涉及大量的计算开销。

为此，这里提出了UAD，一种使用无监督agent的E2EAD框架，以解决所有这些问题。首先，设计了一种新颖的角度感知预训练任务，以消除对标注的需求。该预训练任务通过预测角度空间的目标性和时间动态来模拟驾驶场景，无需手动标注。其次，提出了一种自监督训练策略，该策略学习在不同增强视图下预测轨迹的一致性，以增强转向场景中的规划鲁棒性。UAD在nuScenes的平均碰撞率上相对于UniAD实现了38.7%的相对改进，并在CARLA的Town05 Long基准测试中在驾驶得分上超过了VAD 41.32分。此外，所提出的方法仅消耗UniAD 44.3%的训练资源，并在推理中运行速度快3.4倍。创新设计不仅首次展示了相较于监督对手无可争辩的性能优势，而且在数据、训练和推理方面也具有前所未有的效率。

开放和闭环评估的代码和模型将在：https://github.com/KargoBot_Research/UAD 上进行发布。

领域背景介绍

近几十年来，自动驾驶领域取得了突破性的成就。端到端范式，即寻求将感知、预测和规划任务整合到一个统一框架中的方法，已成为一个代表性的分支。端到端自动驾驶的最新进展极大地激发了研究人员的兴趣。然而，之前已在环境建模中证明其效用的手工制作且资源密集型的感知和预测监督子任务，如图1a所示，仍然是不可或缺的。

那么，从最近的进展中获得了哪些启示？我们注意到，其中一个最具启发性的创新在于基于Transformer的pipeline，其中查询作为连接各个任务的纽带，无缝地连接了不同的任务。此外，环境建模的能力也得到了显著提升，这主要归功于监督子任务之间复杂的交互作用。但是，每枚硬币都有两面。与原始设计（见图1a）相比，模块化方法带来了不可避免的计算和标注开销。如图1b所示，最近的UniAD方法的训练需要48个GPU day，并且每秒仅运行2.1帧（FPS）。此外，现有感知和预测设计中的模块需要大量高质量标注的数据。人工标注的财务开销极大地阻碍了带有监督子任务的这种模块化方法利用海量数据的可扩展性。正如大型基础模型所证明的，扩大数据量是将模型能力提升到下一个层次的关键。因此，这里也问自己一个问题：在减轻对3D标注的依赖的同时，设计一个高效且稳健的E2EAD框架是否可行？

本文提出一种创新的端到端自动驾驶（UAD）的无监督预训练任务，展示了答案是肯定的。该预训练任务旨在有效地建模环境。该预训练任务包括一个角度感知模块，通过学习预测BEV（Bird's-Eye View，鸟瞰图）空间中每个扇形区域的目标性来学习空间信息，以及一个角度梦境解码器，通过预测无法访问的未来状态来吸收时间知识。引入的角度查询将这两个模块连接成一个整体的预训练任务来感知驾驶场景。值得注意的是，方法完全消除了对感知和预测的标注需求。这种数据效率是当前具有复杂监督模块化的方法无法实现的。学习空间目标性的监督是通过将一个现成的开放集检测器的2D感兴趣区域（ROIs）投影到BEV空间来获得的。虽然利用了其他领域（如COCO）手动标注的公开可用的开放集2D检测器进行预训练，但避免了在我们的范式和目标域（如nuScenes和CARLA）中需要任何额外的3D标签，从而创建了一个实用的无监督设置。此外，还引入了一种自监督的方向感知学习策略来训练规划模型。具体来说，通过为视觉观测添加不同的旋转角度，并对预测应用一致性损失，以实现稳健的规划。无需额外的复杂组件，提出的UAD在nuScenes平均L2误差方面比UniAD高0.13m，在CARLA路线完成得分方面比VAD高9.92分。如图1b所示，这种前所未有的性能提升是在3.4倍的推理速度、UniAD的仅44.3%的训练预算以及零标注的情况下实现的。

总结来说，贡献如下：

提出了一种无监督的预训练任务，摒弃了端到端自动驾驶中3D手工标注的需求，使得训练数据扩展到数十亿级别成为可能，而无需承担任何标注负担；
引入了一种新颖的自监督方向感知学习策略，以最大化不同增强视图下预测轨迹的一致性，从而增强了转向场景中的规划鲁棒性；
与其他基于视觉的端到端自动驾驶方法相比，提出的方法在开放和闭环评估中都表现出优越性，同时计算成本和标注成本大大降低。

UAD方法介绍

如图2所示，UAD（端到端自动驾驶）框架由两个基本组件组成：1) 角度感知预训练任务，旨在以无监督的方式将E2EAD（端到端自动驾驶）从昂贵的模块化任务中解放出来；2) 方向感知规划，学习增强轨迹的自监督一致性。具体来说，UAD首先使用预训练任务对驾驶环境进行建模。通过在BEV（鸟瞰图）空间中估计每个扇形区域的目标性来获取空间知识。引入的角度查询，每个查询负责一个扇形区域，用于提取特征和预测目标性。监督标签是通过将2D感兴趣区域（ROIs）投影到BEV空间来生成的，这些ROIs是使用现有的开放集检测器GroundingDINO预测的。这种方法不仅消除了对3D标注的需求，还大大降低了训练成本。此外，由于驾驶本质上是一个动态和连续的过程，因此我们提出了一个角度梦境解码器来编码时间知识。梦境解码器可以看作是一个增强的世界模型，能够自回归地预测未来状态。

接下来，引入了方向感知规划来训练规划模块。原始的BEV特征通过添加不同的旋转角度进行增强，生成旋转的BEV表示和自车轨迹。我们对每个增强视图的预测轨迹应用自监督一致性损失，以期望提高方向变化和输入噪声的鲁棒性。这种学习策略也可以被视为一种专门为端到端自动驾驶定制的新型数据增强技术，增强了轨迹分布的多样性。

1）角度感知预训练任务

空间表征学习。模型试图通过预测BEV（鸟瞰图）空间中每个扇形区域的目标性来获取驾驶场景的空间知识。具体来说，以多视图图像作为输入，BEV编码器首先将视觉信息提取为BEV特征。然后，被划分为以自车为中心的K个扇形，每个扇形包含BEV空间中的几个特征点。将扇区的特征表示为，其中N是所有扇区中特征点的最大数量，从而得出角度BEV特征。对于特征点少于N的扇区，应用零填充。

那么，为什么要将矩形的BEV特征划分为角度格式呢？根本原因是，在缺少深度信息的情况下，对应于二维图像中ROI的BEV空间区域是一个扇形。如图3a所示，通过将3D采样点投影到图像上并验证它们在2D ROIs中的存在性，生成了一个BEV对象掩码，表示BEV空间中的目标性。具体来说，落在2D ROIs内的采样点被设置为1，而其他点被设置为0。注意到，在BEV空间中，正扇形不规则且稀疏地分布。为了使目标性标签更加紧凑，类似于BEV特征划分，将M均匀地分为K个等份。与正扇形重叠的段被赋值为1，构成了角度目标性标签。得益于开放集检测的快速发展，通过向二维开放集检测器（如GroundingDINO）输入预定义的提示（例如，车辆、行人和障碍物），方便地获取输入多视图图像的2D ROIs，这种设计是降低标注成本和扩展数据集的关键。

为了预测每个扇区的objectness得分，这里定义了角度查询来汇总。在中，每个角度查询都会通过交叉注意力机制与对应的f进行交互：

最后，使用一个线性层将映射为目标性得分，该得分由监督，并使用二元交叉熵损失（表示为）进行训练。

**时间表征学习。**这里提出使用角度梦境解码器来捕获驾驶场景的时间信息。如图3b所示，解码器以自回归的方式学习每个扇区的转移动态，类似于世界模型的方式。假设规划模块预测了未来T步的轨迹，那么梦境解码器相应地包含T层，其中每一层都根据学习到的时间动态更新输入的角度查询和角度BEV特征。在第t步，查询首先通过门控循环单元（GRU）从观测特征中捕获环境动态，这生成了（隐藏状态）:

在以前的世界模型中，隐藏状态Q仅用于感知观察到的场景。因此，GRU迭代在t步随着最终观测的获取而结束。在我们的框架中，Q也用于预测未来的自车轨迹。然而，未来的观测，例如是不可用的，因为世界模型的设计初衷是仅根据当前观测来预测未来。为了获得，首先提出更新以提供伪观测，

然后，通过方程2以及和作为输入，可以生成。

遵循世界模型中的损失设计，分别将和映射到分布µσ和µσ，然后最小化它们的KL散度。的先验分布被视为对未来动态的预测，而无需观测。相反，的后验分布表示具有观测的未来动态。两个分布之间的KL散度衡量了想象中的未来（先验）和真实未来（后验）之间的差距。我们期望通过优化梦境损失来增强长期驾驶安全性的未来预测能力：

2）方向感知规划

规划头。角度感知预训练的输出包含一组角度查询{}。对于规划，相应地初始化T个自车查询{}来提取与规划相关的信息，并预测每个未来时间步的自车轨迹。自车查询和角度查询之间的交互是通过交叉注意力机制进行的：

规划头以自车特征（来自）和驾驶指令c作为输入，并输出规划轨迹。

方向增强。观察到训练数据主要由直行场景主导，这里提出了一种方向增强策略来平衡分布。如图4所示，BEV特征以不同的角度r ∈ R = {90◦, 180◦, 270◦}进行旋转，产生旋转后的表示{}。这些增强的特征也将用于预训练任务和规划任务，并由上述损失函数进行监督。值得注意的是，BEV目标maskM和真实自车轨迹Gtraj也会进行旋转，以提供相应的监督标签。

此外，我们提出了一个辅助任务来增强转向能力。具体来说，基于自车查询预测自车意图操作的规划方向（即左、直或右），这将映射到三个方向的概率。方向标签是通过将真实轨迹 Gt_traj(x) 的x轴值与阈值δ进行比较来生成的。具体来说，如果-δ < Gt_traj(x) < δ，则被赋值为直行；否则，对于Gt_traj(x) ⩽ -δ/Gt_traj(x) ⩾ δ，则分别被赋值为left/right。使用交叉熵损失来最小化方向预测和方向标签之间的差距，记作。

方向一致性。针对引入的方向增强，这里提出了一个方向一致性损失，以自监督的方式改进增强的规划训练。需要注意的是，增强的轨迹预测包含了与原始预测相同的场景信息，即具有不同旋转角度的BEV特征。因此，考虑预测之间的一致性并调节由旋转引起的噪声是合理的。规划头应更加鲁棒于方向变化和输入干扰。具体来说，首先将旋转回原始场景方向，然后与应用L1损失。

实验对比

在nuScenes数据集上进行了开环评估实验，该数据集包含40,157个样本，其中6,019个样本用于评估。遵循之前的工作，采用了L2误差（以米为单位）和碰撞率（以百分比为单位）作为评估指标。值得注意的是，还纳入了BEV-Planner中提出的与道路边界的交并比（以百分比为单位）作为评估指标。对于闭环设置，遵循之前的工作，在CARLA模拟器的Town05 基准上进行评估。使用路线完成率（以百分比为单位）和驾驶评分（以百分比为单位）作为评估指标。采用基于查询的view transformer从多视图图像中学习BEV特征。开放集2D检测器的置信度阈值设置为0.35，以过滤不可靠的预测。用于划分BEV空间的角度θ设置为4◦（K=360◦/4◦），默认阈值δ为1.2m。等式8中的权重系数分别设置为2.0、0.1、1.0、2.0、1.0。模型在8个NVIDIA Tesla A100 GPU上训练了24个epoch，每个GPU的bs大小为1。

在nuScenes中的开环规划性能。† 表示基于激光雷达的方法，‡ 表示VAD和ST-P3中使用的TemAvg评估协议。⋄ 表示在规划模块中使用自车状态，并遵循BEV-Planner 计算碰撞率。

.....

#RenderWorld

爆拉OccWorld！提升纯视觉端到端上限，最新SOTA！

纯视觉端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益，而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统，这里提出了RenderWorld，一个仅基于视觉的端到端自动驾驶框架，它使用自监督的高斯-based Img2Occ模块生成3D占用标签，然后通过AM-VAE对标签进行编码，并利用世界模型进行预测和规划。RenderWorld采用高斯溅射（Gaussian Splatting）来表示3D场景，并渲染2D图像，与基于NeRF的方法相比，这大大提高了分割精度并降低了GPU内存消耗。通过将AM-VAE应用于分别编码空气和非空气部分，RenderWorld实现了更细粒度的场景元素表示，从而在基于自回归世界模型的4D占用预测和运动规划方面达到了最先进的性能。

行业背景介绍

随着自动驾驶技术的广泛应用，研究人员逐渐将重点放在了更好的感知和预测方法上，这些方法与系统的决策能力和鲁棒性密切相关。目前大多数框架都是将感知、预测和规划分开进行的。最常用的感知方法是使用视觉和激光雷达融合进行3D目标检测，这使得模型能够更好地预测未来场景并进行运动规划。然而，由于大多数3D目标检测方法无法获得环境中的细粒度信息，它们在后续模型中的规划中表现出非鲁棒性，这影响了系统的安全性。当前的感知方法主要依赖于激光雷达和camera，但激光雷达的高成本和多模态融合的计算需求对自动驾驶系统的实时性能和鲁棒性提出了挑战。

这里介绍了RenderWorld，这是一个用于预测和运动规划的自动驾驶框架，它基于高斯-based Img2Occ模块生成的3D占用标签进行训练。RenderWorld提出了一个自监督的gaussian splatting Img2Occ模块，该模块通过训练2D多视图深度图和语义图像来生成世界模型所需的3D占用标签。为了使世界模型更好地理解由3D占用表示的场景，在向量量化变分自编码器（VQ-VAE）的基础上提出了空气掩码变分自编码器（AM-VAE）。这通过增强场景表示的粒度来提高了我们世界模型的推理能力。

为了验证RenderWorld的有效性和可靠性，分别在NuScenes数据集上对3D占用生成和运动规划进行了评估。综上所述，主要贡献如下：

1）提出了RenderWorld，这是一个纯2D自动驾驶框架，它使用tokens 的2D图像来训练基于高斯的占用预测模块（Img2Occ），以生成世界模型所需的3D标签。2）为了提高空间表示能力，引入了AM-VAE，它通过分别编码空气体素和非空气体素来改进世界模型中的预测和规划，同时减少内存消耗。

#纯视觉如何将VLA推向自动驾驶和xx智能巅峰！

视觉-语言-动作（Vision Language Action, VLA）模型的出现，标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变，同时也将视觉-语言模型（Vision Language Models, VLMs）从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。

为此，兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法，旨在提供清晰的分类体系，并对现有研究进行系统、全面的综述。文中全面分析了VLA在不同场景下的应用，并将VLA方法划分为多个范式：自回归、扩散模型、强化学习、混合方法及专用方法；同时详细探讨了这些方法的设计动机、核心策略与实现方式。

此外，本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状，综述进一步提出了该领域面临的关键挑战与未来发展方向，以推动VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解，本综述勾勒出这一快速发展领域的研究轮廓，并强调了将塑造可扩展、通用型VLA方法发展的机遇与挑战。

论文标题：Pure Vision Language Action (VLA) Models: A Comprehensive Survey
论文链接：https://arxiv.org/abs/2509.19012

一、引言

机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中，机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些方法通常应用于简单、重复性的任务，例如工厂装配线作业和物流分拣。近年来，人工智能技术的快速发展使研究人员能够利用深度学习在多种模态（包括图像、文本和点云）下的特征提取与轨迹预测能力。通过整合感知、检测、跟踪和定位等技术，研究人员将机器人任务分解为多个阶段，以满足执行需求，进而推动了xx智能与自动驾驶技术的发展。然而，目前大多数机器人仍以"孤立智能体"的形式运行------它们专为特定任务设计，缺乏与人类及外部环境的有效交互。

为解决这些局限性，研究人员开始探索整合大型语言模型（Large Language Models, LLMs）与视觉-语言模型（VLMs），以实现更精准、灵活的机器人操作。现代机器人操作方法通常采用视觉-语言生成范式（如自回归模型或扩散模型），并结合大规模数据集与先进的微调策略。我们将这类模型称为VLA基础模型，它们显著提升了机器人操作的质量。对生成内容的细粒度动作控制为用户提供了更高的灵活性，释放了VLA在任务执行中的实际应用潜力。

尽管VLA方法前景广阔，但针对纯VLA方法的综述仍较为匮乏。现有综述要么聚焦于VLMs基础模型的分类体系，要么对机器人操作技术进行整体的宽泛概述。首先，VLA方法是机器人领域的新兴方向，目前尚未形成公认的方法体系与分类标准，这使得系统总结这类方法面临挑战。其次，当前综述要么基于基础模型的差异对VLA方法进行分类，要么对机器人应用领域的整个发展历程进行全面分析，且往往侧重于传统方法，而对新兴技术关注不足。虽然这些综述提供了有价值的见解，但它们要么对机器人模型的探讨较为浅显，要么主要聚焦于基础模型，导致在纯VLA方法的研究文献中存在明显空白。

本文对VLA方法及相关资源进行了深入研究，针对现有方法提供了聚焦且全面的综述。我们的目标是提出清晰的分类体系、系统总结VLA研究成果，并阐明这一快速发展领域的演进轨迹。在简要概述LLMs与VLMs之后，本文重点关注VLA模型的策略设计，突出以往研究的独特贡献与显著特征。我们将VLA方法分为五类：自回归型、扩散型、强化学习型、混合型及专用方法，并详细分析了各类方法的设计动机、核心策略与实现机制（如图2所示，本文展示了这些方法的VLA框架结构）。

此外，本文还探讨了VLA的应用领域，包括机械臂、四足机器人、人形机器人和轮式机器人（自动驾驶车辆），全面评估了VLA在不同场景下的部署情况。考虑到VLA模型对数据集与仿真平台的高度依赖，本文还简要概述了这些关键资源。最后，基于当前VLA研究现状，本文指出了该领域面临的关键挑战，并勾勒了未来研究方向------包括数据局限性、推理速度与安全性等问题------以加速VLA模型与通用机器人技术的发展。

本综述的整体结构如图1所示：第2章概述VLA研究的背景知识；第3章介绍机器人领域现有的VLA方法；第4章阐述VLA方法所使用的数据集与基准测试集；第5章与第6章分别讨论仿真平台与机器人硬件；第7章进一步探讨基于VLA的机器人方法面临的挑战与未来方向；最后，对全文进行总结，并对未来发展提出展望。

综上，本文的主要贡献如下：

提出了结构清晰的纯VLA方法分类体系，根据其动作生成策略对方法进行分类。这一分类体系有助于理解现有方法，并突出该领域的核心挑战。
综述强调了每类方法与技术的显著特征及方法创新，为当前研究提供了清晰的视角。
全面概述了用于VLA模型训练与评估的相关资源（数据集、基准测试集与仿真平台）。
探讨了VLA在机器人领域的实际应用价值，指出了现有技术的关键局限性，并提出了潜在的进一步研究方向。

二、背景

视觉-语言-动作（VLA）模型的出现，标志着机器人技术从传统基于策略的控制向通用机器人技术迈出了重要一步，同时也将视觉-语言模型（VLMs）从被动的序列生成器转变为能够在复杂动态环境中进行操作和决策的主动智能体。本章将从单模态基础模型的发展、VLA模型的演进，以及通用xx智能的未来方向三个维度，梳理VLA研究的技术背景。

早期：LLM/VLM基础模型

单模态建模的突破为多模态融合奠定了方法学和工程基础。在不同模态领域，一系列里程碑式的模型为VLA的诞生积累了关键技术能力：

计算机视觉领域

计算机视觉领域的核心进展在于建立了从局部卷积到深度表征学习的范式，并通过注意力机制进一步提升了模型的迁移性和泛化能力：

卷积神经网络（CNNs）：AlexNet首次证明了深度CNN在图像分类任务中的优越性，开启了深度视觉学习的时代；ResNet通过残差连接解决了深度网络训练中的梯度消失问题，进一步推动了网络深度的提升。
视觉Transformer（ViT）：ViT将自注意力机制引入图像领域，将图像分割为固定大小的"图像块"（image patches）并将其视为序列输入，大幅提升了模型对全局信息的捕捉能力，为跨模态序列建模提供了重要参考。

自然语言处理领域

自然语言处理（NLP）领域的突破源于Transformer架构的提出，该架构支持大规模预训练和模态对齐技术，催生出具备强大推理、指令跟随和上下文学习能力的大型语言模型（LLMs）：

代表性模型包括BERT（双向Transformer预训练模型，擅长理解任务）、GPT系列（生成式预训练Transformer，从GPT-1到GPT-4，逐步提升了长文本生成和复杂推理能力）、T5（文本到文本统一框架，支持多种NLP任务）。
这些模型通过海量文本数据的预训练，掌握了丰富的语义知识和语言逻辑，为后续融合视觉信息、生成动作指令奠定了语言理解基础。

强化学习领域

强化学习领域的进展聚焦于策略优化和序列决策能力的提升，从早期的深度Q网络（DQN）、近端策略优化（PPO），到后来的决策Transformer（Decision Transformer），形成了通过序列建模统一控制任务的新视角。决策Transformer将强化学习中的"状态-动作-奖励"序列视为文本序列进行建模，为VLA中"感知-语言-动作"的统一序列处理提供了思路。

视觉-语言模型

VLMs作为连接单模态学习与xx智能的关键桥梁，经历了从模态对齐到复杂跨模态理解的发展过程：

早期对齐模型：ViLBERT、VisualBERT通过双流或单流Transformer架构实现图像与文本的对齐和融合，初步解决了跨模态表征问题。
对比学习模型：CLIP（对比语言-图像预训练）通过大规模图像-文本对的对比学习，将两种模态映射到共享嵌入空间，支持零样本和少样本识别与检索，为VLA的"视觉-语言"基础对齐提供了核心技术。
指令微调模型：BLIP-2、Flamingo、LLaVA等模型通过指令微调，强化了开放域跨模态理解、细粒度接地（grounding）和多轮推理能力，能够更好地理解人类语言指令与视觉场景的关联，为VLA模型的"动作生成"环节奠定了跨模态理解基础。

现状：VLA模型的发展从LLM/VLM到VLA模型的演进

随着LLM和VLM技术的成熟，研究自然地向"视觉-语言-动作"一体化方向推进。VLA模型将视觉感知、语言理解和可执行控制统一在单一序列建模框架中，其核心设计思路包括：

模态token化：将图像（如通过ViT编码为视觉token）、语言指令（如通过LLM编码为文本token）、机器人状态（如关节角度、传感器反馈）和动作（如控制指令）均转换为统一的token格式。
自回归动作生成：以视觉token、文本token和状态token为前缀或上下文，自回归生成动作token序列，最终解码为机器人可执行的控制指令，从而闭合"感知-语言-动作"循环。

与传统的"感知-规划-控制"分阶段流水线相比，VLA的优势在于：

端到端跨模态对齐，无需手动设计模态间的转换模块；
继承VLMs的语义泛化能力，能够理解模糊或开放域语言指令；
通过显式的状态耦合和动作生成，提升对环境干扰的鲁棒性和长任务执行能力。

这一演进路径------从单模态到多模态，再到"多模态+可执行控制"------为机器人"看见、理解并行动"提供了方法论基础。

数据与仿真的支撑作用

VLA模型在机器人领域的发展高度依赖高质量数据集和能够仿真真实场景复杂度的仿真平台，二者共同解决了深度学习驱动的机器人技术"数据稀缺"和"实机测试风险高"的核心问题：

（1）数据集：真实与通用的双重支撑

当前VLA模型多基于数据驱动，数据集的规模、多样性和标注质量直接决定模型性能：

真实世界数据集：采集过程需大量人力和资金投入，但能反映真实环境的复杂性。例如：

BridgeData涵盖10个环境中的71项任务，支持跨领域机器人技能迁移；
Open X-Embodiment（OXE）整合了21个机构的22个机器人数据集，包含527项技能和160266个任务，通过标准化数据格式促进VLA研究的可复现性。

互联网视频数据集：为解决真实机器人数据稀缺问题，研究人员利用互联网上的大规模人类操作视频（如日常家务、工业装配视频）作为通用数据，为VLA模型提供辅助监督，提升对"人类动作-语言指令"关联的理解。
数据集挑战：现有数据仍存在标注成本高、长尾场景（如罕见物体操作、突发环境变化）覆盖不足的问题，限制了VLA模型的泛化能力。

（2）仿真平台：安全与高效的测试环境

仿真平台通过生成大规模带标注数据、提供可控环境，成为VLA模型训练和评估的关键工具，其核心优势包括：

多样化环境与传感器配置：支持自定义场景（如家庭、工厂、户外）和传感器（RGB-D相机、IMU、触觉传感器），仿真真实机器人的感知条件；
物理真实性：通过精确的物理引擎（如MuJoCo的刚体动力学、Isaac Gym的GPU加速物理仿真）仿真物体碰撞、力反馈等物理交互，确保生成的"动作-效果"关联符合真实世界规律；
代表性平台：

THOR：提供接近照片级真实感的3D室内场景，支持导航和物体交互任务；
Habitat：专注于xx智能导航，支持大规模场景和多智能体交互；
MuJoCo/Isaac Gym：擅长机器人动力学仿真，适用于机械臂操作、四足机器人 locomotion 等任务；
CARLA：面向自动驾驶，提供真实城市交通场景和多传感器数据生成。

这些数据集和仿真平台共同缓解了真实机器人数据稀缺的问题，加速了VLA模型的训练、评估与迭代。

迈向通用xx智能

VLA模型处于视觉、语言、动作三大领域交叉的前沿，其核心目标是实现"通用xx智能"------即机器人不仅具备认知能力，还能通过物理身体与环境交互，适应多样化任务和场景。

通用xx智能的核心内涵

通用xx智能强调"身体-感知-反馈"的一体化，认为类人智能行为不仅依赖认知处理，还需结合物理身体的运动能力、环境感知能力和实时反馈机制。为适应不同任务需求，通用xx智能可通过多种机器人形态实现：

家庭场景的人形机器人、工业场景的灵巧操作机械臂、特殊场景的仿生机器人（如水下机器人、无人机）等。
这些机器人需在开放环境中自主理解任务（如"整理桌面""修复设备"）、规划动作、应对突发变化，最终实现跨场景、跨任务的通用操作能力。

VLA模型的潜力与挑战

VLA模型通过整合视觉编码器的表征能力、LLM的推理能力、强化学习与控制框架的决策能力，有望弥合"感知-理解-动作"的鸿沟，成为实现通用xx智能的核心路径。目前，VLA已在视觉-语言-动作交互中取得显著进展，但仍面临以下挑战：

可扩展性：现有模型难以适应大规模、多样化的真实场景（如从实验室到户外、从单一任务到多任务）；
泛化性：在训练数据未覆盖的场景（如未知物体、复杂光照）中，动作生成的准确性和安全性下降；
安全性：实机部署时，模型可能因环境干扰或指令歧义生成危险动作（如碰撞人类或设备）；
真实世界部署：仿真环境与真实环境的差异（"仿真到现实差距"）导致模型在实机上的性能衰减。

尽管存在挑战，VLA仍被广泛认为是xx人工智能的关键前沿方向，其发展正逐步向通用xx智能的愿景迈进。

三、视觉-语言-动作（VLA）模型

近年来，得益于多模态表征学习、生成式建模和强化学习的进展，VLA模型实现了快速且系统性的发展。本章将梳理VLA的主要方法范式，包括自回归模型、扩散模型、强化学习模型，以及混合与专用设计，并分析各范式的核心创新、代表模型与局限性。

视觉-语言-动作研究中的自回归模型

自回归模型是VLA任务中序列生成的经典且高效范式。该类模型将动作序列视为时间依赖过程，基于历史上下文、感知输入和任务指令逐步生成动作。随着Transformer架构的发展，现代VLA系统已证明该范式的可扩展性和鲁棒性。

自回归通用VLA方法

通用VLA智能体的研究核心是将感知、任务指令和动作生成统一在自回归序列建模框架中，通过对多模态输入的token化，实现跨任务的逐步动作生成。其发展历程可概括为三个阶段：

早期统一token化：Gato（2022）首次实现对异质模态（视觉、语言、状态、动作）的token化，通过单一Transformer架构进行联合训练，证明了"多模态统一建模"的可行性。
大规模真实数据训练：RT-1（2022）基于13万条真实世界演示数据训练，通过FiLM（特征调制）实现多模态融合，提升了实机控制的准确性；RT-2（2023）在PaLM-E基础上扩展动作token，并融入网络级VLM知识，支持开放词汇表抓取（如"拿起红色杯子"）；PaLM-E（2023）将预训练语言模型知识融入xx控制，可处理视觉问答（VQA）、导航、操作等多任务。
跨平台泛化与效率优化：为解决"不同机器人形态适配"问题，Octo（2024）通过150万条视频数据训练开源跨机器人策略，支持无奖励模仿学习；LEO（2024）通过两阶段训练实现3D视觉-语言对齐与VLA微调；UniAct（2025）定义"通用原子动作"，解决跨机器人形态的异质性问题。同时，轻量化设计成为趋势：NORA（2025）采用FAST+tokenizer和97万条演示数据，构建轻量级开源VLA；RoboMM（2024）通过模态掩码实现多模态融合，在RoboData数据集上达到最优性能。

此外，近期研究还关注推理能力整合：OneTwoVLA（2025）设计自适应"系统1（快速反应）-系统2（深度推理）"机制，支持长任务规划和错误恢复；UP-VLA（2025）通过统一提示框架融合任务、视觉和动作信息，提升少样本性能。

目前，自回归通用VLA已从概念验证转向强调可扩展性、语义推理和部署效率的阶段，但在安全性、可解释性和人类价值观对齐方面仍存在未解决问题。

基于LLM的自回归推理与语义规划

LLM的融入使VLA系统从"被动输入解析器"转变为"语义中介"，支持长任务和组合任务的推理驱动控制。其发展可分为四个方向：

自对话推理：Inner Monologue（2022）引入"动作前规划-动作后反思"的自对话推理循环，提升xx任务成功率；Instruct2Act（2023）设计"视觉-语言-任务脚本-动作"流水线，通过语义中介连接语言指令与动作生成；RoboFlamingo（2023）适配OpenFlamingo至机器人领域，实现VLM到VLA的高效迁移。
反馈与分层规划：Interactive Language（2022）支持实时语言修正，允许人类在任务执行中调整指令；Hi Robot（2025）采用"粗到细"分层规划，处理长语言指令；Mobility VLA（2024）将长上下文VLM与导航结合，支持多模态指令跟随；NORA（2025）强调轻量化部署，适合资源受限场景。
分层控制与链推理：DexGraspVLA（2025）结合VLM规划与扩散模型，实现鲁棒灵巧抓取；CoT-VLA（2025）引入视觉链推理（Visual Chain-of-Thought），通过预测目标提升长任务稳定性；HAMSTER（2025）利用域外数据训练分层VLA，增强泛化能力；InSpire（2025）通过空间推理提示减少虚假关联，提升推理可靠性。
平台化与规模化：Gemini Robotics（2025）基于Gemini 2.0构建多任务xx推理平台；（2025）通过异质机器人数据训练，支持开放世界泛化；FAST（2025）设计变长动作token，提升长任务执行效率；LLaRA（2024）通过对话任务增强数据，提升VLM到VLA的迁移能力。

尽管该方向已从语义中介发展为交互式分层规划系统，但仍面临幻觉控制（生成与场景无关的推理结果）、多模态对齐稳定性、实时安全性等挑战。

自回归轨迹生成与视觉对齐建模

该方向通过自回归建模强化"感知-动作"映射，同时确保视觉-语言语义对齐，核心是基于多模态观测解码运动轨迹或控制token，为"指令跟随-动作执行"提供统一机制。

早期语言-轨迹映射：LATTE（2022）首次证明直接将语言映射为运动轨迹的可行性，为后续多模态扩展奠定基础；VIMA（2023）通过语言、视觉、动作的统一token化，实现强跨任务泛化（主要在仿真环境中）；InstructRL（2023）采用联合视觉-语言编码器与策略Transformer，提升模态对齐精度。
视频预测与世界建模：GR-1（2024）、GR-2（2024）将视频生成预训练迁移至机器人领域，GR-2进一步融入网络级视频-语言监督，支持零样本操作；WorldVLA（2025）通过联合视觉-动作建模，缓解自回归误差累积问题；TraceVLA（2025）引入视觉轨迹提示（Visual Trace Prompting），捕捉长任务中的关键线索。
跨机器人形态适配：Bi-VLA（2024）设计双臂预测器，支持协同双手机械操作；RoboNurse-VLA（2024）在医疗场景中实现高精度手术抓取；Moto（2025）通过"运动语言token"连接视频预训练与动作执行，提升模型迁移能力；OpenVLA（2024）发布70亿参数开源模型，基于97万条轨迹训练，性能超越RT-2-X，支持跨平台泛化。
多模态感知扩展：VTLA（2025）融合视觉-触觉输入与偏好优化，在未知任务中的成功率超过90%；PointVLA（2025）将点云注入预训练VLA，实现轻量化3D推理；GraspVLA（2025）基于GraspVerse预训练GPT风格解码器，支持真实世界抓取迁移；OpenDriveVLA（2025）将2D/3D感知对齐到统一语义空间，生成自动驾驶轨迹。

该方向已从"语言-轨迹直接映射"发展为涵盖多模态预训练、视频驱动世界建模、跨形态适配的生态，但在长任务稳定性、噪声输入下的语义接地、实机部署效率方面仍需改进。

自回归VLA的结构优化与高效推理

为实现VLA模型的规模化部署和实时控制，研究聚焦于减少计算冗余、缩短推理延迟、保持跨场景鲁棒性，主要方向包括：

分层与模块化优化：HiP（2023）将任务分解为符号规划、视频预测、动作执行三阶段，支持自回归模型的长任务推理；Actra（2024）通过轨迹注意力和可学习查询优化Transformer，降低计算开销；领域专用优化（如空间VLA的体素网格与空间注意力、VLA-Cache的自适应键值缓存）进一步减少冗余计算。
动态自适应推理：DeeR-VLA（2024）基于任务复杂度实现解码早期终止，降低实时控制成本；FAST（2025）将长动作序列压缩为变长token，提升推理效率；BIT-VLA（2025）采用1位量化（1-bit quantization），将内存占用降至30%，同时保持性能。
轻量化压缩与并行化：MoLe-VLA（2025）通过混合专家（Mixture-of-Experts）路由实现动态层跳过，降低40%计算成本；PD-VLA（2025）采用并行定点解码，无需重新训练即可加速推理；CLIPort（2021）分离"是什么（what）"和"在哪里（where）"路径，生成动作热力图，提升计算效率。
多模态推理与效率融合：OTTER（2025）将语言感知注入视觉编码，增强模态对齐；ChatVLA（2025）通过专家路由和分阶段对齐实现规模化；LoHoVLA（2025）构建统一分层控制，支持超长任务闭环执行。

该方向已从早期分层分解发展为自适应计算、轻量化压缩、多模态感知融合的综合优化体系，为实机部署提供了关键技术支撑，但仍需进一步探索硬件感知协同优化和安全机制。

自回归模型的创新与局限

创新点：通过Transformer架构统一多模态感知、语言推理和序列动作生成，支持跨任务泛化；融入LLM实现语义规划，扩展长任务处理能力；通过轨迹生成与视觉对齐，提升动作准确性；结构优化与量化技术降低部署成本。
局限：自回归解码存在误差累积和延迟问题；多模态对齐在噪声输入下易失效；大规模模型训练需海量数据和计算资源；推理过程的幻觉、稳定性和可解释性不足；效率优化常以精度或泛化为代价。

视觉-语言-动作研究中的扩散模型

扩散模型（含流匹配、变分自编码器等）作为生成式AI的变革性范式，在VLA框架中展现出独特优势：通过将动作生成建模为"条件去噪过程"，实现概率性动作生成，支持从同一观测生成多种有效轨迹。本章从通用方法、多模态融合、应用部署三个维度梳理其发展。

扩散通用VLA方法

扩散模型在VLA中的核心突破是将机器人控制从"确定性回归"转变为"概率性生成"，其发展聚焦于表征结构丰富化和生成稳定性提升：

几何感知生成：SE(3)-DiffusionFields（2023）将扩散模型扩展到SE(3)位姿空间，学习平滑代价函数，联合优化抓取与运动规划，确保动作的物理一致性；3D Diffuser Actor（2024）通过条件扩散嵌入3D场景信息，提升轨迹生成的空间合理性。
视频驱动生成：UPDP（2023）将决策视为"视频生成"任务，以图像为交互接口、语言为指导，利用视频的时间连续性提升长任务规划能力；AVDC（2024）通过光流和运动重建，从无动作标签的视频中学习视觉运动策略；RDT-1B（2025）构建大规模扩散模型，通过时间条件建模支持双手机械操作的零样本泛化。
时间一致性优化：TUDP（2025）通过跨时间步的统一扩散 velocity 场和动作判别机制，提升轨迹时间连贯性；CDP（2025）利用历史动作条件和缓存机制，减少动态环境中的动作抖动；DD VLA（2025）将动作分割为离散块，通过离散扩散和交叉熵训练提升生成效率。

该方向已实现从"确定性动作"到"概率性多轨迹生成"的转变，支持几何感知和时间一致的动作生成，但在动态环境中的轨迹稳定性仍需改进。

基于扩散的多模态架构融合

扩散模型与Transformer的结合是该方向的核心趋势------注意力机制天然适配生成式建模，而多模态融合则需解决"异质模态保留独特属性"的挑战：

大规模扩散Transformer：Dita（2025）构建可扩展扩散Transformer，直接对连续动作进行去噪；Diffusion Transformer Policy（2025）通过超大规模注意力架构（超小动作头设计），提升连续动作建模精度，自注意力的归纳偏置与机器人行为的组合性高度契合。
多模态token对齐：M-DiT（2024）将视觉、语言、位置目标映射为统一多模态token，支持灵活的条件扩散生成；ForceVLA（2025）将6轴力传感视为一级模态，通过力感知混合专家（MoE）融合触觉-视觉-语言嵌入，提升接触密集型操作的准确性。
推理与扩散结合：Diffusion-VLA（2025）引入"自生成推理"模块，生成符号化中间表示，连接语言推理与扩散动作生成；CogACT（2024）通过语义场景图整合感知、推理与控制，增强模型对任务逻辑的理解；PERIA（2024）联合微调多模态LLM与图像编辑模型，提升子目标规划能力。
预训练模型复用：SuSIE（2023）复用预训练图像编辑扩散模型，通过生成目标图像实现零样本机器人操作；Chain-of-Affordance（2024）将任务解析为"序列可用性子目标"，显式建立"感知-动作"对，提升复杂环境中的任务分解能力；（2024）在"观测-理解-执行"循环中，将视频和语言编码为 latent token，支持端到端控制。

该方向已从"单一架构适配"发展为融合推理、多传感输入、预训练知识的认知启发框架，但计算成本高、数据集多样性不足仍是主要瓶颈。

扩散VLA的应用优化与部署

扩散模型的实机部署需解决效率、适应性和鲁棒性三大核心问题，近期研究呈现"智能稀疏化""认知启发设计""防御性AI"三大趋势：

效率优化：TinyVLA（2025）通过LoRA微调（仅5%可训练参数）降低训练成本，支持单GPU训练；SmolVLA（2025）通过异步推理在消费级硬件上部署紧凑VLA；VQ-VLA（2025）采用向量量化tokenizer，缩小"仿真到现实"差距；OFT（2025）通过并行解码、动作分块和连续表征学习，优化微调效率。
任务适应性：DexVLG（2025）在DexGraspNet上训练大规模抓取模型，支持灵巧手零样本抓取；AC-DiT（2025）通过多模态移动性条件适配扩散Transformer，支持移动操作；ObjectVLA（2025）无需人类演示即可实现开放世界物体操作；SwitchVLA（2025）基于状态-上下文信号建模"执行感知任务切换"，适应动态环境。
认知启发架构：MinD（2025）整合低频视频预测（战略规划）与高频扩散策略（反应式控制）；TriVLA（2025）分离视觉语言推理、动力学感知和策略学习模块，实现36Hz交互频率；Hume（2025）融合双系统价值引导推理与快速去噪，平衡精度与速度；DreamVLA（2025）通过自反思循环（含链推理、错误token、专家层）提升鲁棒性。
领域扩展与基础模型：DriveMoE（2025）采用场景/动作专用混合专家架构，提升自动驾驶闭环控制性能；DreamGen（2025）生成神经轨迹，支持人形机器人学习新任务；EnerVerse（2025）通过自回归视频扩散预测xx未来；FP3（2025）构建大规模3D基础扩散策略，基于6万条轨迹预训练；GR00T N1（2025）将多模态Transformer整合为人形机器人基础模型。
鲁棒性提升：BYOVLA（2025）在推理时动态编辑无关视觉区域，无需重训练即可增强鲁棒性；GEVRM（2025）基于文本引导视频生成，提升复杂场景中的操作可靠性；VidBot（2025）从单目视频中重建3D可用性（affordance），支持零样本操作。

该方向已从"实验室原型"转向"跨领域实用系统"，但在安全关键场景的可靠性、泛化到极端环境的能力方面仍需突破。

扩散模型的创新与局限

创新点：将机器人控制重构为生成式问题，支持概率性动作生成；通过多模态融合增强场景理解；轻量化设计和认知启发架构提升部署可行性；在自动驾驶、人形机器人等领域实现专用适配。
局限：动态环境中的时间连贯性差；大规模模型需海量数据和计算资源；安全关键场景的可靠性未充分验证；多模态融合可能稀释单模态优势；领域专用适配可能降低迁移性。

视觉-语言-动作研究中的强化学习微调模型

强化学习（RL）微调模型通过融合视觉-语言基础模型与强化学习算法，增强VLA的感知、推理和决策能力。该类模型利用视觉和语言输入生成上下文感知动作，在自动驾驶、机器人操作、xxAI等领域展现出优势，尤其擅长结合人类反馈、适应新任务，性能常超越纯监督范式。

VLA研究中的强化学习微调策略

强化学习在VLA中的应用聚焦于"奖励设计""策略优化""跨任务迁移"，其发展可分为以下方向：

自监督奖励与表征学习：VIP（2023）从无动作视频中学习与动作无关的"目标条件价值函数"，通过嵌入距离隐式评估价值，生成平滑表征；LIV（2023）基于视觉预训练生成密集奖励函数，支持未知任务；PR2L（2024）融合VLM世界知识与RL，提升机器人操作的泛化性；ALGAE（2024）通过语言引导抽象解释RL驱动行为，增强可解释性。
跨模态奖励代理与人类反馈：ELEMENTAL（2025）通过VLM语义映射从演示数据中学习奖励代理，支持复杂操作任务的快速定制；SafeVLA（2025）从安全角度优化VLA，引入"约束学习对齐机制"：通过安全评论网络（Safety Critic Network）估计风险水平，利用约束策略优化（CPO）框架在最大化奖励的同时，确保安全损失低于预设阈值，显著降低多任务（操作、导航、处理）中的风险事件，尤其适用于语言指令模糊的场景。
跨机器人形态适配：NaVILA（2025）通过单阶段RL策略微调VLA，输出连续控制指令，适应复杂地形和动态语言指令；MoRE（2025）将多个低秩自适应模块作为"专家"融入密集多模态LLM，构建稀疏激活混合专家模型，以Q函数形式通过RL目标训练，提升四足机器人VLA的规模化能力；LeVERB（2025）设计分层VLA框架，将视觉-语言处理与动力学级动作处理耦合，通过RL将"潜在词汇"转换为高频动态控制指令，支持人形机器人全身控制（WBC）。
离线与在线RL融合：ReinboT（2025）基于离线混合质量数据集，通过预测密集奖励捕捉任务差异，引导机器人生成长期收益最优的决策；SimpleVLA-RL（2025）仅用单条轨迹和二元（0/1）结果奖励训练，无需密集监督或大规模行为克隆数据，性能接近全轨迹监督微调（SFT）；ConRFT（2025）结合离线行为克隆（BC）、Q学习（提取有限演示中的策略、稳定价值估计）与在线一致性目标（人工干预确保安全探索），平衡样本效率与策略安全性。
领域扩展与效率优化：AutoVLA（2025）在自动驾驶领域引入自回归生成模型，通过"链推理微调"和"组相对策略优化"生成离散可行动作，重建连续轨迹；RPD（2025）通过RL蒸馏从VLA教师模型中学习学生模型，提升推理速度；RLRC（2025）通过"结构化剪枝-SFT+RL恢复-量化"的压缩框架，在降低内存占用、提升推理吞吐量的同时，保持原VLA的任务成功率。

强化学习模型的创新与局限

创新点：利用视觉-语言信号生成可迁移的密集奖励代理；结合离线BC与在线RL稳定策略优化；引入安全约束降低开放环境风险；适配四足、人形、自动驾驶等多形态机器人，展现强通用性。
局限：奖励工程常存在间接性或噪声，导致学习次优；监督微调与探索的相互作用影响训练稳定性；高维真实环境中的训练计算成本高；安全策略在对抗性指令下的泛化性不足。

其他先进研究方向

除自回归、扩散、强化学习三大基础范式外，VLA研究还涌现出融合多范式、增强多模态理解、适配专用领域、构建基础模型、优化实际部署的先进方向，进一步扩展了VLA的能力边界。

混合架构与多范式融合

针对复杂xx任务的多样性，混合架构通过组合多范式优势（如扩散的物理一致性、自回归的推理能力、RL的适应性），构建更灵活的VLA系统：

HybridVLA（2025）在70亿参数框架中统一扩散轨迹生成与自回归推理，兼顾动作平滑性与上下文理解；
RationalVLA（2025）通过 latent 嵌入连接高层推理与低层策略，过滤不可行指令，规划可执行动作；
OpenHelix（2025）通过大规模实证研究提供标准化混合VLA设计，含开源实现与设计指南；
Fast-in-Slow（2025）基于"双系统理论"，在慢节奏VLM骨干中嵌入低延迟执行模块，平衡实时响应与高层推理；
Transformer-based Diffusion Policy（2025）构建十亿参数架构，融合扩散与注意力机制，超越传统U-Net设计，捕捉更丰富的轨迹上下文依赖。

先进多模态融合与空间理解

该方向突破"简单特征拼接"，通过建模几何、可用性（affordance）和空间约束，提升VLA的3D场景理解与动作 grounding 能力：

CLIPort（2021）分离"what"（物体识别）与"where"（动作定位）路径，利用CLIP生成动作热力图，增强视觉-动作对齐；
VoxPoser（2023）通过LLM引导的可组合3D价值图，将指令解析为目标理解与体素空间动作规划；
3D-VLA（2024）通过生成式3D世界模型整合感知、语言与动作，实现3D场景中的连贯控制；
ReKep（2024）基于关系关键点图建模时空依赖，适用于精度敏感任务（如精密装配）；
RoboPoint（2024）预测可用性地图作为规划先验，提升复杂场景中的动作可行性；
BridgeVLA（2025）将3D观测投影到多视角2D热力图，提升动作预测的样本效率；
GeoManip（2025）嵌入符号化几何约束，无需任务重训练即可泛化动作（如不同尺寸物体的抓取）。

专用领域适配与应用

VLA框架在安全关键、数字交互、人形控制等专用领域的适配，不仅验证了其通用性，也推动了领域特定技术创新：

自动驾驶：CoVLA（2024）构建首个大规模自动驾驶VLA数据集，含5万条语言指令-轨迹对，支持导航与危险规避；AutoRT（2024）通过"观测-推理-执行"框架协调机器人集群，将PaLM-E、RT-2等VLM作为战略规划器；
GUI交互：ShowUI（2024）将VLA应用于图形界面操作，处理点击、拖拽、表单填写等动作，在GUI-Bench上表现优异；
人形全身控制：LeVERB（2025）通过"视觉-语言策略学习潜在动作词汇+RL控制层生成动力学指令"的双层设计，实现150+任务的鲁棒"仿真到现实"迁移；Helix（2024）通过单一统一策略网络，实现人形机器人操作、 locomotion 、跨机器人协作；
特殊任务：CubeRobot（2025）采用"视觉链推理（VisionCoT）+记忆流"双循环设计，解决魔方还原任务，中低复杂度场景成功率接近100%；EAV-VLA（2025）设计对抗性补丁攻击，用于测试VLA的鲁棒性（如防止机器人被恶意指令误导）；
移动操作：MoManipVLA（2025）通过航点优化和双层运动规划，将固定基座VLA迁移至移动机器人（如自主导航+抓取）。

基础模型与大规模训练

基础模型通过海量多模态数据训练，为VLA提供"通用先验"，支持跨任务、跨形态泛化，是该方向的核心趋势：

大规模数据集：DROID（2025）提供15万+轨迹数据，涵盖1000+物体和任务，含RGBD、语言、低维状态等多模态标注；ViSA-Flow（2025）从大规模人类-物体交互视频中提取语义动作流，预训练生成模型，下游机器人学习仅需少量适配；
训练策略优化：Zhang等人（2024）通过2500次滚动实验，分析动作空间、策略头设计、监督信号等微调因素，提供基础VLA适配指南；Chen等人（2025）将链推理融入xx策略学习，推理速度提升3倍；
统一基础模型：RoboBrain（2025）提出"感知-推理-规划"统一xx基础模型；VC-1（2024）通过4000+小时视频预训练（MAE初始化Transformer），探索数据规模对VLA性能的影响；CAST（2025）通过反事实语言和动作生成增强数据集多样性，提升模型鲁棒性。

实际部署：效率、安全与人机协作

VLA从研究走向应用，需解决实时推理、鲁棒性、人机交互三大核心问题，相关研究聚焦于"系统优化+安全机制+人类协同"：

（1）效率优化

推理加速：EdgeVLA（2024）去除末端执行器预测的自回归依赖，采用紧凑LLM，推理速度提升6倍；DeeR-VLA（2024）基于置信度的早期退出机制，降低在线控制成本；CEED-VLA（2025）通过一致性蒸馏和早期退出解码，推理速度提升4倍，同时通过混合标签监督缓解误差累积；
轻量化设计：RoboMamba（2024）采用轻量化多模态融合，适用于资源受限设备；BitVLA（2025）通过1位量化降低内存占用；MoLe-VLA（2025）动态跳过冗余层，降低40%计算成本；
部署适配：RTC（2025）支持动作分块策略的异步平滑执行；cVLA（2025）通过2D航点预测提升"仿真到现实"迁移能力；ReVLA（2025）实现跨视觉领域（如室内/户外光照）的自适应，增强鲁棒性。

（2）安全与鲁棒性

故障检测：SAFE（2025）利用VLA内部特征信号检测多任务故障，泛化至未知场景；
对抗性防御：Cheng等人（2024）通过物理脆弱性评估程序（PVEP），发现VLA对 adversarial patches、字体攻击、分布偏移的脆弱性，推动鲁棒感知-控制 pipeline 研发；
可解释性：Lu等人（2025）揭示VLA隐藏层中"物体-关系-动作"的符号化编码，为透明决策奠定基础；
自适应控制：DyWA（2025）联合建模几何、状态、物理和动作，适应动态部分可观测环境。

（3）人机协作

人类反馈融合：Xiang等人（2025）设计协作框架，将有限专家干预融入VLA决策，降低操作员工作量并丰富训练数据；
闭环交互：Zhi等人（2025）结合GPT-4V感知与实时反馈控制，动态适应环境变化；
任务接地：CrayonRobo（2025）通过物体中心提示实现可解释接地（如"拿起红色杯子"对应视觉中的红色区域）；
技能复用：历史感知策略学习（2022）和接地掩码方法（2025）支持任务分解与技能库构建，提升协作效率。

其他先进方向的创新与局限

创新点：混合架构整合多范式优势；3D空间理解增强动作 grounding；专用领域适配拓展VLA应用边界；基础模型提供通用先验；部署优化解决实时性、安全性与协作问题。
局限：混合系统计算成本高、可扩展性差；多模态融合在噪声输入下易失效；领域适配可能导致过拟合；基础模型需海量数据与计算资源；部署中的鲁棒性、可解释性仍需提升。

四、数据集与基准测试

与其他模仿学习方法类似，视觉-语言-动作（VLA）模型依赖高质量的标注数据集。这些数据集要么来自真实场景采集，要么通过仿真环境生成（数据集样本如图4所示）。通常，数据集包含多模态观测数据（如图像、激光雷达点云、惯性测量单元（IMU）数据等），以及对应的真值标签和语言指令。为便于系统理解，本文对现有数据集和基准测试进行分析，并提出一种分类方法------根据数据集的复杂度、模态类型和任务多样性对其进行分类。该分类方法为评估不同数据集对VLA研究的适用性提供了清晰框架，并指出了现有资源中可能存在的空白（代表性研究总结于表5）。

真实世界数据集与基准测试

高质量的真实世界数据集是开发可靠VLA算法的基础。近年来，研究人员已采集了大量高质量、多样化的真实世界机器人数据集，涵盖不同传感器模态、各类任务及多种环境场景。

xx机器人领域的真实世界数据集与基准测试

真实世界xx机器人数据集，指通过机器人在环境中进行感知与动作交互所获取的多模态数据集合。这类数据集专门用于捕捉视觉、听觉、本体感觉和触觉等多模态输入，与相应电机动作、任务意图及环境背景之间的复杂交互关系。它们是训练和评估xx人工智能模型的关键资源------xx人工智能的目标是让机器人在动态环境中通过闭环自适应行为完成任务。通过提供丰富且时间对齐的观测数据与动作数据，这些数据集为模仿学习、强化学习、视觉-语言-动作及机器人规划等领域的算法开发与基准测试提供了基础支持。

当前，xx机器人数据集面临显著的数据成本问题，因为真实世界机器人数据的大规模采集难度较大。采集真实世界机器人数据集面临诸多挑战：不仅需要硬件设备支持，还需实现精准操控。其中，MIME、RoboNet和MT-Opt已采集了涵盖从简单物体推动到复杂家居物品堆叠等多种任务的大规模机器人演示数据集。与以往数据集通常假设每个任务仅有一条最优轨迹不同，这些数据集针对同一任务提供了多个演示样本，并将测试轨迹间的最小距离作为评估指标。该方法极大推动了操纵任务与VLA任务的研究进展。

BridgeData提供了一个大规模跨领域机器人数据集，包含10个环境中的71项任务。实验表明，将该数据集与新领域中少量未见过的任务（如50项任务）联合训练，相比仅使用目标领域数据，任务成功率可提升一倍。因此，许多现代VLA方法均采用BridgeData进行模型训练。

在xx人工智能领域，模型的泛化能力常受限于真实世界机器人数据采集的多样性不足。RT-1提供了一个涵盖广泛真实世界机器人任务的数据集，以同时提升任务性能和对新场景的泛化能力。类似地，Bc-z包含了此前未见过的操纵任务，这些任务涉及同一场景中物体的新组合，为通用策略学习研究提供了支持。部分数据集还为xx人工智能提供了全面的软件平台与生态系统，涵盖手部操纵、移动、多任务处理、多智能体交互及基于肌肉控制等多种场景。

与早期研究相比，RoboHive填补了当前机器人学习能力与潜在发展空间之间的差距，支持强化学习、模仿学习、迁移学习等多种学习范式。值得注意的是，RH20T包含147项任务，涵盖110K个操纵任务片段，提供了视觉、力、音频和动作等多模态数据。每个任务片段均配有人类演示视频和语言描述，因此该数据集特别适用于单样本模仿学习，以及基于已有训练片段向新任务迁移策略的研究。

为推动更具泛化性的操纵策略开发，机器人领域需优先采集大规模、多样化的数据集，涵盖广泛的任务类型与环境场景。已有多个数据集通过多台机器人在不同地区协同采集而成，成为目前地理分布和场景多样性最高的xx机器人数据集之一。此外，Open X-Embodiment（OXE）整合了21家机构协作采集的22个机器人数据集，涵盖527项技能和160266个任务，并提供标准化数据格式，方便研究人员使用（上述数据集概述如表5（A）所示）。

在基准测试评估中，研究人员通常采用"成功率"（完成任务数量占总任务数量的比例）作为核心指标。部分研究还会额外采用"语言遵循率"，以评估模型理解和执行语言指令的能力。此外，近年来的VLA模型常通过将训练后的策略迁移到未见过的环境中进行测试，以衡量模型的鲁棒性和泛化性能。

自动驾驶领域的真实世界数据集与基准测试

自动驾驶数据集与xx机器人数据集存在差异，它是人工智能最具变革性的应用领域之一，其感知、规划和控制算法的训练与评估高度依赖大规模数据集。高质量数据集是开发鲁棒且通用的自动驾驶系统的基础，可支持监督学习、基准测试，以及对罕见或安全关键场景的仿真。过去十年间，研究人员已推出多个数据集，提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据。这些数据集在地理覆盖范围、传感器配置、驾驶行为多样性和标注丰富度等方面差异显著，成为互补的研究与开发资源。

然而，大多数公开数据集是在开环场景下采集的，且主要反映正常驾驶行为，难以覆盖长尾边缘案例。为解决这一问题，近年来研究人员开始聚焦于生成合成数据、仿真闭环交互，以及构建针对罕见或安全关键事件的专用数据集。数据集设计的持续创新，对推动安全、可扩展且通用的自动驾驶系统发展至关重要。

在评估方面，自动驾驶VLA模型通常采用诸如"L2距离"（衡量与参考轨迹的偏差程度）和"完成率"（量化成功完成驾驶任务的比例）等指标。

仿真数据集与基准测试

为连续控制任务采集大规模真实世界数据面临显著挑战：这类任务需要人类标注者进行实时交互和持续反馈，且数据采集成本高、耗时长，难以实现规模化。而仿真数据则为获取大规模、高质量数据提供了可行途径------研究人员可利用虚拟化引擎生成的仿真数据，对xx机器人或自动驾驶模型进行训练与评估。

xx机器人领域的仿真数据集与基准测试

xx人工智能仿真数据集通常包含合成场景、基于物理的交互过程、导航标注、物体操纵标注、任务执行标注及智能体-环境动态关系数据。这些数据集支持对视觉导航、语义探索、复杂多步骤物体操纵等多种任务的基准测试与训练。典型示例包括Meta-World、RLBench、RoboGen等，它们在真实感、任务多样性和控制精度方面各有取舍。通过支持安全实验和大规模数据采集，仿真数据集为开发鲁棒且通用的xx智能体奠定了基础。随着领域发展，设计更丰富、更真实的仿真数据集（涵盖多样的智能体形态、任务类型和环境场景），仍是推动模型走向真实世界部署的关键。

ROBOTURK是一个用于高质量6自由度操纵状态与动作的仿真数据集，通过移动设备远程操作采集。与传统依赖远程用户在虚拟引擎中演示动作的方法不同，ROBOTURK利用策略学习生成具有不同奖励机制的多步骤机器人任务。通过聚合大量演示样本，该数据集为模型训练和评估提供了精准可靠的数据。

iGibson 0.5推出了一个用于训练和评估交互式导航方案的基准测试。该研究不仅提供了全新的实验仿真环境，还提出了专门的指标来评估导航过程中导航行为与物理交互的协同效果。该基准测试引入"交互式导航评分"，包含两个子指标：路径效率和能耗效率。其中，路径效率定义为"最短成功路径长度与机器人实际行驶路径长度的比值（乘以成功指示函数）"；能耗效率则衡量导航过程中所需的额外运动学和动力学能耗，反映物理交互的成本。

VIMA推出了名为VIMABENCH的新基准测试，建立了四级评估协议，以评估模型逐步提升的泛化能力------从物体随机放置场景到全新任务场景。类似地，CALVIN和Lota-Bench聚焦于利用多模态机器人传感器数据，在多样化操纵环境中学习长序列、语言条件下的任务。这些基准测试特别适合评估那些通过在大规模交互数据集上训练、并在新场景中测试以实现对未见过实体泛化的方法。此类基准测试的性能通常通过任务成功率来衡量（上述仿真数据集概述如表5（B）所示）。

自动驾驶领域的仿真数据集与基准测试

闭环仿真在确保自动驾驶系统安全性方面发挥关键作用：它能够生成真实世界中难以捕捉或存在危险的安全关键场景。尽管历史驾驶日志为构建新场景提供了宝贵资源，但闭环评估需要对原始传感器数据进行修改，以反映更新后的场景配置。例如，可能需要添加或移除交通参与者，且现有交通参与者和自车的轨迹可能与原始记录存在差异。

UniSim是一款神经传感器仿真器，可将单条记录轨迹扩展为多传感器闭环仿真。它通过构建神经特征网格来重建静态背景和动态交通参与者，并将二者合成，以仿真从新视角获取的激光雷达和相机数据，从而支持添加、移除或重新定位交通参与者。为更好地适应未见过的视角，UniSim还采用卷积网络对原始数据中不可见的区域进行补全。

与真实世界自动驾驶数据集不同，闭环仿真基准测试需要针对交互式驾驶任务设计专用评估指标。常用指标包括"行驶路线偏差"（衡量对规划轨迹的遵循程度）、"违规评分"（对交通规则违规行为进行惩罚）和"完成评分"（评估任务完成情况）。这些指标共同构成了对VLA模型在真实、安全关键驾驶场景中性能的全面评估。

讨论

创新点

本文提出了系统的分类方法、标准化评估指标，以及Open X-Embodiment（OXE）等大规模协作项目------OXE整合了来自多机构的数据集，可促进研究的可复现性和泛化性。这些贡献扩大了任务覆盖范围，丰富了模态组合类型，并提升了跨领域策略迁移能力，推动了xx人工智能研究的规模化发展。

局限性

然而，真实世界数据集的采集成本高、后勤难度大，且常局限于受控实验室环境，场景多样性有限；仿真数据集虽具备可扩展性和安全性，但仍难以完全捕捉真实世界交互的复杂性、噪声和不可预测性。此外，"成功率""轨迹偏差"等基准测试指标，可能无法充分反映模型在语言接地、长序列推理或非结构化环境安全部署等方面的精细能力。要解决这些局限性，不仅需要扩大数据集的多样性和真实感，还需设计更丰富的评估协议，以更好地匹配真实世界自主系统的需求。

五、仿真器

机器人仿真器已成为在多样化交互环境中开发和评估智能机器人系统的必备工具。这类平台通常整合物理引擎、传感器模型（如RGB-D、IMU、激光雷达）和任务逻辑，支持导航、操纵、多模态指令遵循等多种任务。最先进的仿真器可提供具备照片级真实感、物理一致性的可扩展环境，用于通过强化学习、模仿学习或大规模预训练模型训练xx智能体。通过提供安全、可控且可复现的环境，xx仿真器加速了通用机器人智能的发展，同时大幅降低了真实世界实验相关的成本和风险。

THOR是一款仿真器，拥有接近照片级真实感的3D室内场景，人工智能智能体可在其中导航环境、与物体交互以完成任务。它支持模仿学习、强化学习、操纵规划、视觉问答、无监督表征学习、目标检测和语义分割等多个研究领域。与之不同，部分仿真器基于真实空间虚拟化构建（而非人工设计环境），涵盖数千座全尺寸建筑，其中的xx智能体需遵循真实的物理和空间约束。

Habitat及其升级版本Habitat 2.0进一步扩展了这一范式，提供可扩展的仿真平台，用于在具备物理交互能力的复杂3D环境中训练xx智能体。ALFRED推出了一个包含长序列、组合型任务的基准测试，这些任务涉及不可逆的状态变化，旨在缩小仿真基准测试与真实世界应用之间的差距。ALFRED同时提供高层目标和低层语言指令，与现有视觉-语言数据集相比，其任务在序列长度、动作空间和语言变异性方面的复杂度显著提升。

早期结合物理与机器人任务的仿真环境，往往聚焦于狭窄场景，且仅包含小规模简化场景。与之相反，iGibson 1.0和iGibson 2.0是开源仿真平台，支持在大规模真实环境中完成多样化家居任务。它们的场景是真实住宅的复制品，物体分布和布局与物理空间高度一致，从而提升了生态有效性，并缩小了仿真与真实世界机器人学习之间的差距。

先进的仿真器不仅支持多个智能体在同一环境中交互，还能提供丰富的传感器数据和物理输出。理想的仿真器应整合通用物理引擎、灵活的机器人仿真平台和高保真渲染系统，成为机器人仿真和生成模型评估的强大工具。

MuJoCo是一款被广泛采用的开源物理引擎，专为机器人及相关领域（需精准仿真）的研究与开发设计。近年来，基于GPU的仿真引擎逐渐流行，其中最具代表性的是NVIDIA Isaac Gym------它构建于Omniverse平台之上，可在物理真实的虚拟环境中实现对人工智能驱动机器人的大规模开发、仿真和测试。Isaac Gym在学术界和工业界的应用日益广泛，助力加速新型机器人工具的开发和现有系统的优化。

自动驾驶领域也面临类似挑战：大规模真实世界数据的采集和标注成本高、耗时长，且难以采集足够数据覆盖大量罕见边缘案例。为解决这一问题，研究人员开发了包含静态道路元素（如交叉路口、交通信号灯、建筑物）和动态交通参与者（如车辆、行人）的仿真器。CARLA和LGSVL利用游戏引擎渲染真实驾驶场景，支持灵活的传感器配置，并生成适用于驾驶策略训练与评估的信号。这些平台已成为推动自动驾驶研究的关键工具，可提供可控、可复现且经济高效的测试环境。

六、机器人硬件

机器人的物理结构是其实现感知、移动、操纵及与环境交互的基础。其核心组件通常包括传感器、执行器、动力系统和控制单元。其中，传感器（如相机、激光雷达、惯性测量单元和触觉阵列）负责采集外部环境及机器人内部状态的关键信息；执行器（包括电机、伺服电机或液压系统）则将控制信号转化为物理动作，从而实现移动、物体操纵等任务；控制单元一般基于嵌入式处理器或微控制器，作为计算核心整合传感器输入并向执行器下达指令；动力系统通常以电池或外部能源的形式，为机器人的持续运行提供能量支持。

为满足不同应用领域（如工业自动化、服务机器人和自动驾驶）的任务特定需求，硬件设计需在性能、能效、重量和耐用性之间实现平衡。

七、挑战与未来方向

视觉-语言-动作（VLA）模型的挑战

本节总结了推进VLA模型发展过程中面临的开放性挑战与未来方向。尽管近年来VLA模型取得了显著进展，但在发展过程中也逐渐暴露出关键瓶颈。最根本的问题在于，当前的VLA系统大多基于大规模语言模型（LLM）或视觉-语言模型（VLM）的迁移学习构建而成。这些模型虽在语义理解和跨模态对齐方面表现出色，却缺乏与物理世界交互的直接训练和经验。因此，VLA系统在真实环境中常出现"理解指令但无法执行任务"的现象，这反映了一个核心矛盾：语义层面的泛化能力与物理世界中的xx能力相互脱节。如何实现从非xx知识到xx智能的转化，真正弥合语义推理与物理执行之间的鸿沟，仍是当前面临的核心挑战。具体而言，这一矛盾主要体现在以下几个方面：

机器人数据稀缺

机器人交互数据是决定VLA模型性能的关键资源，但现有数据集在规模和多样性上仍存在不足。在真实世界中，跨大量任务和环境收集大规模演示数据受到硬件成本、实验效率和安全问题的限制。现有开源数据集（如Open X-Embodiment）虽推动了机器人学习的发展，但主要集中于桌面操纵和物体抓取任务，任务与环境的多样性不足，严重限制了模型对新场景和复杂任务的泛化能力。

仿真平台（如RLBench）虽能以较低成本生成大规模轨迹数据，但受限于渲染保真度、物理引擎精度和任务建模能力。即便采用域随机化或风格迁移等技术，"虚实差距"（sim-to-real gap）依然存在，许多模型在仿真环境中表现优异，但部署到物理机器人上时却无法正常工作。因此，如何在扩大规模的同时提升机器人数据的多样性和真实性，仍是缓解模型泛化能力不足的首要挑战。

架构异质性

大多数VLA模型尝试对视觉、语言和动作进行端到端建模，但其实现过程中存在明显的架构异质性。一方面，不同研究采用的骨干网络各不相同：视觉编码器可能依赖ViT、DINOv2或SigLIP，语言骨干网络可能基于PaLM、LLaMA或Qwen，而动作头则可能采用离散令牌化、连续控制向量甚至基于扩散的生成方式。这种架构多样性阻碍了模型间的比较与复用，延缓了统一标准的形成。

另一方面，模型内部的感知、推理和控制模块往往耦合松散，导致特征空间碎片化，在不同平台或任务领域间的可移植性较差。部分模型虽在跨任务语言理解方面表现突出，但与底层控制器对接时仍需大量适配工作。这种架构异质性增加了系统集成的复杂性，严重制约了VLA模型的泛化能力和可扩展性。

实时推理约束与成本

当前VLA模型严重依赖大规模Transformer架构和自回归解码机制，这极大地限制了其在实体机器人上的推理速度和执行效率。由于每个动作令牌的生成都依赖于前一个令牌，延迟会不断累积；而动态抓取、移动导航等高频任务则需要毫秒级的响应速度。此外，高维视觉输入和庞大的参数规模带来了极高的计算与内存成本，许多最先进的VLA模型所需的GPU内存远超普通嵌入式平台的承载能力。

即便采用量化、压缩或边-云协同推理等技术，仍难以在精度、实时性和低成本之间实现平衡。这种推理约束与硬件瓶颈的叠加，使得VLA模型的部署陷入"速度过慢"与"成本过高"的两难境地。

人机交互中的伪交互

在人机交互场景中，VLA系统生成动作时往往依赖先验知识或静态训练模式，而非基于环境动态和因果推理的真实交互。当遇到陌生场景或状态变化时，模型通常依赖从数据中学习到的统计相关性，而非通过探测环境或利用传感器反馈来调整动作。这种因果推理能力的缺失，导致VLA系统虽看似能遵循指令，却无法在环境状态与动作结果之间建立真正的因果链，进而难以适应动态环境。

这种"伪交互"现象凸显了VLA模型在因果建模和反馈利用方面的不足，仍是实现xx智能的关键障碍。

评估与基准局限

VLA模型的评估体系同样存在局限。现有基准测试大多设置在实验室或高度结构化的仿真环境中，聚焦于桌面操纵或物体抓取等任务。这类任务虽能衡量模型在特定数据分布下的性能，却无法反映其在开放世界场景中的泛化能力和鲁棒性。一旦将模型部署到户外、工业或复杂家庭环境中，性能往往会大幅下降，暴露出评估体系与真实世界应用需求之间的差距。

这种狭窄的评估范围不仅阻碍了对VLA模型可行性的全面评估，也限制了模型间的横向比较。缺乏统一、权威且多样化的基准测试，正逐渐成为VLA模型向真实世界应用推进的主要瓶颈。

需要注意的是，上述五个方面虽凸显了VLA模型在数据、架构、交互和评估方面的关键不足，但并未涵盖该领域面临的所有挑战。从更长远的角度来看，VLA系统能否真正实现可控性、可信性和安全性，仍是一个核心问题。换言之，VLA的未来发展不仅需要解决性能和泛化问题，还需应对智能体安全部署的深层挑战。这一转变意味着研究人员必须超越单纯的模型优化，推动整个领域的范式革新，以应对长期挑战。

视觉-语言-动作（VLA）模型的机遇

尽管面临严峻挑战，VLA模型的未来仍充满机遇。作为连接语言、感知与动作的关键桥梁，VLA有望突破语义-物理鸿沟，成为实现xx智能的核心路径。克服当前瓶颈不仅可能重塑机器人研究的范式，还能使VLA模型处于真实世界部署的前沿位置。

世界建模与跨模态统一

目前，VLA系统中的语言、视觉和动作仍处于松散耦合状态，这使得模型局限于"指令生成"，而非对世界的整体理解。若能实现真正的跨模态统一，VLA模型将能够在单一令牌流中联合建模环境、推理过程和交互行为。这种统一结构将使VLA进化为"原型世界模型"，让机器人能够完成从语义理解到物理执行的闭环。这不仅是一项技术突破，更将是迈向通用人工智能的关键一步。

因果推理与真实交互突破

现有大多数VLA模型依赖静态数据分布和表面相关性，缺乏基于因果规律的交互能力。它们通过从先验模式中推测来"仿真交互"，而非通过探测环境并利用反馈更新策略。未来，若VLA模型能融入因果建模与交互推理能力，机器人将学会主动探测、验证和调整策略，实现与动态环境的真实"对话"。这一突破将克服"伪交互"问题，标志着智能体从数据驱动智能向深度交互智能的转变。

虚实融合与大规模数据生成

数据稀缺虽是当前的关键局限，但也孕育着巨大机遇。若能通过高保真仿真、合成数据生成和多机器人数据共享，构建虚实融合的数据生态系统，将有可能建立包含数万亿条跨任务轨迹的数据集。正如GPT模型借助互联网规模的语料库实现语言智能的飞跃，此类数据生态系统也可能推动xx智能的跨越式发展，使VLA模型能够在开放世界场景中稳定运行。

社会嵌入与可信生态

VLA模型的终极价值不仅体现在技术能力上，更在于其社会融入度。随着VLA模型进入公共和家庭空间，安全性、可信性和伦理一致性将决定其能否被广泛接受。建立风险评估、可解释性和问责制的标准化框架，将使VLA模型从实验室成果转变为可信的合作伙伴。一旦实现社会嵌入，VLA有望成为下一代人机交互界面，重塑医疗、工业、教育和服务等多个领域。这种社会嵌入不仅是技术落地的里程碑，更是前沿研究转化为真实世界变革力量的重要机遇。

八、结论

近年来，视觉-语言-动作（VLA）模型的研究进展显著，将视觉语言模型的泛化能力扩展到机器人应用领域，包括xx智能、自动驾驶和各类操纵任务。本综述通过分析VLA方法的动机、方法论和应用，系统梳理了该领域的发展脉络；同时提供了统一的架构分类体系，并分析了超过300篇相关文献及支持材料。

首先，本综述根据自回归模型、扩散模型、强化学习、混合结构和效率优化技术，对VLA架构的创新成果进行了分类；随后，探讨了支持VLA模型训练与评估的数据集、基准测试和仿真平台；基于上述全面综述，进一步分析了现有方法的优势与不足，并指出了未来研究的潜在方向。

这些见解共同构成了一份综合参考资料和前瞻性路线图，可为开发可信、持续演进的VLA模型提供指导，进而推动机器人系统中通用人工智能的发展。

参考