我自己的原文哦~https://blog.51cto.com/whaosoft/12170501
#UAD
爆拉UniAD近40%,推理提升3倍!UAD:全新纯视觉端到端SOTA
动机来源于对当前E2E AD模型仍模仿典型驾驶堆栈中模块化架构的观察,这些模型通过精心设计的监督感知和预测子任务为定向规划提供环境信息。尽管取得了突破性的进展,但这种设计也存在一些缺点:
1)先前的子任务需要大量高质量的3D标注作为监督,给训练数据的扩展带来了重大障碍;
2)每个子模块在训练和推理中都涉及大量的计算开销。
为此,这里提出了UAD,一种使用无监督agent的E2EAD框架,以解决所有这些问题。首先,设计了一种新颖的角度感知预训练任务,以消除对标注的需求。该预训练任务通过预测角度空间的目标性和时间动态来模拟驾驶场景,无需手动标注。其次,提出了一种自监督训练策略,该策略学习在不同增强视图下预测轨迹的一致性,以增强转向场景中的规划鲁棒性。UAD在nuScenes的平均碰撞率上相对于UniAD实现了38.7%的相对改进,并在CARLA的Town05 Long基准测试中在驾驶得分上超过了VAD 41.32分。此外,所提出的方法仅消耗UniAD 44.3%的训练资源,并在推理中运行速度快3.4倍。创新设计不仅首次展示了相较于监督对手无可争辩的性能优势,而且在数据、训练和推理方面也具有前所未有的效率。
开放和闭环评估的代码和模型将在:https://github.com/KargoBot_Research/UAD 上进行发布。
领域背景介绍
近几十年来,自动驾驶领域取得了突破性的成就。端到端范式,即寻求将感知、预测和规划任务整合到一个统一框架中的方法,已成为一个代表性的分支。端到端自动驾驶的最新进展极大地激发了研究人员的兴趣。然而,之前已在环境建模中证明其效用的手工制作且资源密集型的感知和预测监督子任务,如图1a所示,仍然是不可或缺的。

那么,从最近的进展中获得了哪些启示?我们注意到,其中一个最具启发性的创新在于基于Transformer的pipeline,其中查询作为连接各个任务的纽带,无缝地连接了不同的任务。此外,环境建模的能力也得到了显著提升,这主要归功于监督子任务之间复杂的交互作用。但是,每枚硬币都有两面。与原始设计(见图1a)相比,模块化方法带来了不可避免的计算和标注开销。如图1b所示,最近的UniAD方法的训练需要48个GPU day,并且每秒仅运行2.1帧(FPS)。此外,现有感知和预测设计中的模块需要大量高质量标注的数据。人工标注的财务开销极大地阻碍了带有监督子任务的这种模块化方法利用海量数据的可扩展性。正如大型基础模型所证明的,扩大数据量是将模型能力提升到下一个层次的关键。因此,这里也问自己一个问题:在减轻对3D标注的依赖的同时,设计一个高效且稳健的E2EAD框架是否可行?
本文提出一种创新的端到端自动驾驶(UAD)的无监督预训练任务,展示了答案是肯定的。该预训练任务旨在有效地建模环境。该预训练任务包括一个角度感知模块,通过学习预测BEV(Bird's-Eye View,鸟瞰图)空间中每个扇形区域的目标性来学习空间信息,以及一个角度梦境解码器,通过预测无法访问的未来状态来吸收时间知识。引入的角度查询将这两个模块连接成一个整体的预训练任务来感知驾驶场景。值得注意的是,方法完全消除了对感知和预测的标注需求。这种数据效率是当前具有复杂监督模块化的方法无法实现的。学习空间目标性的监督是通过将一个现成的开放集检测器的2D感兴趣区域(ROIs)投影到BEV空间来获得的。虽然利用了其他领域(如COCO)手动标注的公开可用的开放集2D检测器进行预训练,但避免了在我们的范式和目标域(如nuScenes和CARLA)中需要任何额外的3D标签,从而创建了一个实用的无监督设置。此外,还引入了一种自监督的方向感知学习策略来训练规划模型。具体来说,通过为视觉观测添加不同的旋转角度,并对预测应用一致性损失,以实现稳健的规划。无需额外的复杂组件,提出的UAD在nuScenes平均L2误差方面比UniAD高0.13m,在CARLA路线完成得分方面比VAD高9.92分。如图1b所示,这种前所未有的性能提升是在3.4倍的推理速度、UniAD的仅44.3%的训练预算以及零标注的情况下实现的。
总结来说,贡献如下:
- 提出了一种无监督的预训练任务,摒弃了端到端自动驾驶中3D手工标注的需求,使得训练数据扩展到数十亿级别成为可能,而无需承担任何标注负担;
- 引入了一种新颖的自监督方向感知学习策略,以最大化不同增强视图下预测轨迹的一致性,从而增强了转向场景中的规划鲁棒性;
- 与其他基于视觉的端到端自动驾驶方法相比,提出的方法在开放和闭环评估中都表现出优越性,同时计算成本和标注成本大大降低。
UAD方法介绍
如图2所示,UAD(端到端自动驾驶)框架由两个基本组件组成:1) 角度感知预训练任务,旨在以无监督的方式将E2EAD(端到端自动驾驶)从昂贵的模块化任务中解放出来;2) 方向感知规划,学习增强轨迹的自监督一致性。具体来说,UAD首先使用预训练任务对驾驶环境进行建模。通过在BEV(鸟瞰图)空间中估计每个扇形区域的目标性来获取空间知识。引入的角度查询,每个查询负责一个扇形区域,用于提取特征和预测目标性。监督标签是通过将2D感兴趣区域(ROIs)投影到BEV空间来生成的,这些ROIs是使用现有的开放集检测器GroundingDINO预测的。这种方法不仅消除了对3D标注的需求,还大大降低了训练成本。此外,由于驾驶本质上是一个动态和连续的过程,因此我们提出了一个角度梦境解码器来编码时间知识。梦境解码器可以看作是一个增强的世界模型,能够自回归地预测未来状态。
接下来,引入了方向感知规划来训练规划模块。原始的BEV特征通过添加不同的旋转角度进行增强,生成旋转的BEV表示和自车轨迹。我们对每个增强视图的预测轨迹应用自监督一致性损失,以期望提高方向变化和输入噪声的鲁棒性。这种学习策略也可以被视为一种专门为端到端自动驾驶定制的新型数据增强技术,增强了轨迹分布的多样性。

1)角度感知预训练任务
空间表征学习。模型试图通过预测BEV(鸟瞰图)空间中每个扇形区域的目标性来获取驾驶场景的空间知识。具体来说,以多视图图像作为输入,BEV编码器首先将视觉信息提取为BEV特征。然后,被划分为以自车为中心的K个扇形,每个扇形包含BEV空间中的几个特征点。将扇区的特征表示为,其中N是所有扇区中特征点的最大数量,从而得出角度BEV特征。对于特征点少于N的扇区,应用零填充。
那么,为什么要将矩形的BEV特征划分为角度格式呢?根本原因是,在缺少深度信息的情况下,对应于二维图像中ROI的BEV空间区域是一个扇形。如图3a所示,通过将3D采样点投影到图像上并验证它们在2D ROIs中的存在性,生成了一个BEV对象掩码,表示BEV空间中的目标性。具体来说,落在2D ROIs内的采样点被设置为1,而其他点被设置为0。注意到,在BEV空间中,正扇形不规则且稀疏地分布。为了使目标性标签更加紧凑,类似于BEV特征划分,将M均匀地分为K个等份。与正扇形重叠的段被赋值为1,构成了角度目标性标签。得益于开放集检测的快速发展,通过向二维开放集检测器(如GroundingDINO)输入预定义的提示(例如,车辆、行人和障碍物),方便地获取输入多视图图像的2D ROIs,这种设计是降低标注成本和扩展数据集的关键。

为了预测每个扇区的objectness得分,这里定义了角度查询来汇总。在中,每个角度查询都会通过交叉注意力机制与对应的f进行交互:

最后,使用一个线性层将映射为目标性得分,该得分由监督,并使用二元交叉熵损失(表示为)进行训练。
**时间表征学习。**这里提出使用角度梦境解码器来捕获驾驶场景的时间信息。如图3b所示,解码器以自回归的方式学习每个扇区的转移动态,类似于世界模型的方式。假设规划模块预测了未来T步的轨迹,那么梦境解码器相应地包含T层,其中每一层都根据学习到的时间动态更新输入的角度查询和角度BEV特征。在第t步,查询首先通过门控循环单元(GRU)从观测特征中捕获环境动态,这生成了(隐藏状态):

在以前的世界模型中,隐藏状态Q仅用于感知观察到的场景。因此,GRU迭代在t步随着最终观测的获取而结束。在我们的框架中,Q也用于预测未来的自车轨迹。然而,未来的观测,例如是不可用的,因为世界模型的设计初衷是仅根据当前观测来预测未来。为了获得,首先提出更新以提供伪观测,

然后,通过方程2以及和作为输入,可以生成。
遵循世界模型中的损失设计,分别将和映射到分布µσ和µσ,然后最小化它们的KL散度。的先验分布被视为对未来动态的预测,而无需观测。相反,的后验分布表示具有观测的未来动态。两个分布之间的KL散度衡量了想象中的未来(先验)和真实未来(后验)之间的差距。我们期望通过优化梦境损失来增强长期驾驶安全性的未来预测能力:

2)方向感知规划
规划头。角度感知预训练的输出包含一组角度查询{}。对于规划,相应地初始化T个自车查询{}来提取与规划相关的信息,并预测每个未来时间步的自车轨迹。自车查询和角度查询之间的交互是通过交叉注意力机制进行的:

规划头以自车特征(来自)和驾驶指令c作为输入,并输出规划轨迹。

方向增强。观察到训练数据主要由直行场景主导,这里提出了一种方向增强策略来平衡分布。如图4所示,BEV特征以不同的角度r ∈ R = {90◦, 180◦, 270◦}进行旋转,产生旋转后的表示{}。这些增强的特征也将用于预训练任务和规划任务,并由上述损失函数进行监督。值得注意的是,BEV目标maskM和真实自车轨迹Gtraj也会进行旋转,以提供相应的监督标签。

此外,我们提出了一个辅助任务来增强转向能力。具体来说,基于自车查询预测自车意图操作的规划方向(即左、直或右),这将映射到三个方向的概率。方向标签是通过将真实轨迹 Gt_traj(x) 的x轴值与阈值δ进行比较来生成的。具体来说,如果-δ < Gt_traj(x) < δ,则被赋值为直行;否则,对于Gt_traj(x) ⩽ -δ/Gt_traj(x) ⩾ δ,则分别被赋值为left/right。使用交叉熵损失来最小化方向预测和方向标签之间的差距,记作。
方向一致性。针对引入的方向增强,这里提出了一个方向一致性损失,以自监督的方式改进增强的规划训练。需要注意的是,增强的轨迹预测包含了与原始预测相同的场景信息,即具有不同旋转角度的BEV特征。因此,考虑预测之间的一致性并调节由旋转引起的噪声是合理的。规划头应更加鲁棒于方向变化和输入干扰。具体来说,首先将旋转回原始场景方向,然后与应用L1损失。


实验对比
在nuScenes数据集上进行了开环评估实验,该数据集包含40,157个样本,其中6,019个样本用于评估。遵循之前的工作,采用了L2误差(以米为单位)和碰撞率(以百分比为单位)作为评估指标。值得注意的是,还纳入了BEV-Planner中提出的与道路边界的交并比(以百分比为单位)作为评估指标。对于闭环设置,遵循之前的工作,在CARLA模拟器的Town05 基准上进行评估。使用路线完成率(以百分比为单位)和驾驶评分(以百分比为单位)作为评估指标。采用基于查询的view transformer从多视图图像中学习BEV特征。开放集2D检测器的置信度阈值设置为0.35,以过滤不可靠的预测。用于划分BEV空间的角度θ设置为4◦(K=360◦/4◦),默认阈值δ为1.2m。等式8中的权重系数分别设置为2.0、0.1、1.0、2.0、1.0。模型在8个NVIDIA Tesla A100 GPU上训练了24个epoch,每个GPU的bs大小为1。
在nuScenes中的开环规划性能。† 表示基于激光雷达的方法,‡ 表示VAD和ST-P3中使用的TemAvg评估协议。⋄ 表示在规划模块中使用自车状态,并遵循BEV-Planner 计算碰撞率。





.....
#RenderWorld
爆拉OccWorld!提升纯视觉端到端上限,最新SOTA!
纯视觉端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益,而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统,这里提出了RenderWorld,一个仅基于视觉的端到端自动驾驶框架,它使用自监督的高斯-based Img2Occ模块生成3D占用标签,然后通过AM-VAE对标签进行编码,并利用世界模型进行预测和规划。RenderWorld采用高斯溅射(Gaussian Splatting)来表示3D场景,并渲染2D图像,与基于NeRF的方法相比,这大大提高了分割精度并降低了GPU内存消耗。通过将AM-VAE应用于分别编码空气和非空气部分,RenderWorld实现了更细粒度的场景元素表示,从而在基于自回归世界模型的4D占用预测和运动规划方面达到了最先进的性能。
行业背景介绍
随着自动驾驶技术的广泛应用,研究人员逐渐将重点放在了更好的感知和预测方法上,这些方法与系统的决策能力和鲁棒性密切相关。目前大多数框架都是将感知、预测和规划分开进行的。最常用的感知方法是使用视觉和激光雷达融合进行3D目标检测,这使得模型能够更好地预测未来场景并进行运动规划。然而,由于大多数3D目标检测方法无法获得环境中的细粒度信息,它们在后续模型中的规划中表现出非鲁棒性,这影响了系统的安全性。当前的感知方法主要依赖于激光雷达和camera,但激光雷达的高成本和多模态融合的计算需求对自动驾驶系统的实时性能和鲁棒性提出了挑战。
这里介绍了RenderWorld,这是一个用于预测和运动规划的自动驾驶框架,它基于高斯-based Img2Occ模块生成的3D占用标签进行训练。RenderWorld提出了一个自监督的gaussian splatting Img2Occ模块,该模块通过训练2D多视图深度图和语义图像来生成世界模型所需的3D占用标签。为了使世界模型更好地理解由3D占用表示的场景,在向量量化变分自编码器(VQ-VAE)的基础上提出了空气掩码变分自编码器(AM-VAE)。这通过增强场景表示的粒度来提高了我们世界模型的推理能力。
为了验证RenderWorld的有效性和可靠性,分别在NuScenes数据集上对3D占用生成和运动规划进行了评估。综上所述,主要贡献如下:
1)提出了RenderWorld,这是一个纯2D自动驾驶框架,它使用tokens 的2D图像来训练基于高斯的占用预测模块(Img2Occ),以生成世界模型所需的3D标签。2)为了提高空间表示能力,引入了AM-VAE,它通过分别编码空气体素和非空气体素来改进世界模型中的预测和规划,同时减少内存消耗。
相关工作介绍
3D占用率正在成为激光雷达感知的一种可行替代方案。大多数先前的工作都利用3D占用率真实值进行监督,但这在标注上是一个挑战。随着神经辐射场(NeRF)的广泛采用,一些方法试图使用2D深度和语义标签进行训练。然而,使用连续的隐式神经场来预测占用概率和语义信息往往会导致高昂的内存成本。最近,GaussianFormer利用稀疏高斯点作为减少GPU消耗的手段来描述3D场景,而GaussianOcc则利用一个6D姿态网络来消除对真实姿态的依赖,但两者都存在整体分割精度大幅下降的问题。在提出的工作中,采用了一种基于锚点的高斯初始化方法来对体素特征进行高斯化,并使用更密集的高斯点来表示3D场景,从而在避免NeRF基方法中光线采样导致的过度内存消耗的同时,实现了更高的分割精度。
世界模型常用于未来帧预测并辅助机器人做出决策。随着端到端自动驾驶的逐渐发展,世界模型也被应用于预测未来场景和制定决策。与传统自动驾驶方法不同,世界模型方法集成了感知、预测和决策制定。许多当前的方法将相机-激光雷达数据进行融合,并将其输入到世界模型中,用于预测和制定运动规划。其中,OccWorld提出利用3D占用率作为世界模型的输入。然而,OccWorld在利用纯2D输入方面效率较低,且在编码过程中由于信息丢失而难以准确预测未来场景。因此,我们设计了一个Img2Occ模块,将2D标签转换为3D占用标签,以增强世界建模能力。
RenderWorld方法介绍
本节中将描述RenderWorld的总体实现。首先,提出了一个Img2Occ模块,用于占用率预测和3D占用标签的生成。随后,介绍了一个基于空气mask变分自编码器(AM-VAE)的模块,以优化占用率表示并增强数据压缩效率。最后,详细阐述了如何集成世界模型以准确预测4D场景演变。
1)使用多帧2D标签进行3D占用率预测
为了实现3D语义占用率预测和未来3D占用标签的生成,这里设计了一个Img2Occ模块,如图2所示。使用来自多个相机的图像作为输入,首先使用预训练的BEVStereo4D主干和Swin Transformer提取2D图像特征。然后,利用已知的固有参数(i=1到N)和外参,将这些2D信息插值到3D空间中以生成体积特征。为了将3D占用体素投影到多相机语义图上,这里应用了高斯splatting,一种先进的实时渲染pipeline。
在每个体素的中心以可学习的尺度初始化锚点,以近似场景占用率。每个锚点的属性是根据相机与锚点之间的相对距离和观察方向来确定的。然后,这个锚点集被用来初始化一个带有语义标签的高斯集。每个高斯点x在世界空间中由一个完整的3D协方差矩阵Σ和其中心位置µ表示,并且每个点的颜色由该点的语义标签决定。

直接优化Σ可能会导致不可行的矩阵,因为它必须是正半定的。为了确保Σ的有效性,我们将其分解为缩放矩阵S和旋转矩阵R,以表征3D高斯椭球体的几何形状:

然后,通过计算相机空间协方差矩阵Σ',将3D高斯体投影到2D以进行渲染:

其中J是投影变换的仿射近似的雅可比矩阵,W是视图变换。然后,可以通过对排序后的高斯体应用alpha混合来计算每个像素的语义/深度:

为了计算真实深度与渲染深度之间的差异,利用皮尔逊相关系数,它可以测量两个2D深度图之间的分布差异,遵循以下函数:

最后,我们构建了损失函数,其中包括用于监督语义分割的交叉熵损失和用于深度监督的,整体损失可以计算如下:

2)空气mask变分自编码器(AM-VAE)
传统的变分自编码器(VAEs)无法对非空气体素的独特特征进行编码,这阻碍了模型以细粒度级别表示场景元素。为了解决这个问题,这里引入了空气掩码变分自编码器(AM-VAE),这是一种新颖的VAE,它涉及训练两个独立的向量量化变分自编码器(VQVAE),以分别编码和解码空气和非空气占用体素。假设o代表输入占用表示,而和分别代表空气和非空气体素。
首先利用一个3D卷积神经网络对占用数据进行编码,输出是一个连续的潜在空间表示,记为f。编码器qϕ(s|o)将输入f映射到潜在空间s。然后使用两个潜在变量和来分别表示空气和非空气体素:

每个编码后的潜在变量或使用可学习的码本或来获得离散tokens ,然后在输入到解码器之前,用与该tokens 最相似的codebook替换它。这个过程可以表示为:

然后,解码器pθ(o|s)从量化的潜在变量和中重建输入占用:

为了促进占用表示中空气和非空气元素的分离,用M表示非空气类别的集合。然后,在修改后的占用中,空气和非空气的指示函数可以定义如下:

修改后的空气占用和非空气占用由以下等式给出:


然后,为训练AM-VAE构建了损失函数,它包含重建损失和commitment损失LReg:

AM-VAE在统一的编码器-解码器设置中,为空气和非空气体素分别使用了不同的码本。这种方法有效地捕获了每种体素类型的独特特征,从而提高了重建准确性和泛化潜力。
3)世界模型
通过在自动驾驶中应用世界模型,将3D场景编码为高级tokens ,我们的框架可以有效地捕获环境的复杂性,从而实现对未来场景和车辆决策的准确自回归预测。
受OccWorld的启发,使用3D占用率来表示场景,并采用自监督的分词器来推导高级场景tokens T,并通过聚合车辆tokens z0来编码车辆的空间位置。世界模型w是根据当前时间戳T和历史帧数t来定义的,然后使用以下公式建立预测:

同时,采用了一种时间生成式Transformer架构来有效预测未来场景。它首先通过空间聚合和下采样处理场景tokens ,然后生成一个分层的tokens 集合{T0, · · · , TK}。为了在不同空间尺度上预测未来,采用多个子世界模型w = {w0, · · · , wK}来实现,并且每个子模型wi使用以下公式对每个位置j的tokens 应用时间注意力:

在预测模块中,首先利用自监督的分词器e将3D场景转换为高级场景tokens T,并使用车辆tokens z0来编码车辆的空间位置。在预测了未来的场景tokens后,应用一个场景解码器d来解码预测的3D占用率,并学习一个车辆解码器,用于生成相对于当前帧的车辆位移。预测模块通过生成未来车辆位移和场景变化的连续预测,为自动驾驶系统的轨迹优化提供决策支持,确保安全和自适应的路径规划。
这里实现了一个两阶段训练策略来有效地训练预测模块。在第一阶段,使用3D占用率损失来训练场景分词器e和解码器d:

然后,使用学习到的场景分词器e来获取所有帧的场景tokens z,对于车辆tokens ,同时学习车辆解码器,并在预测的位移和真实位移p上应用L2损失。第二阶段的总体损失可以表示为:

实验对比





....
#纯视觉如何将VLA推向自动驾驶和xx智能巅峰!
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。
为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA在不同场景下的应用,并将VLA方法划分为多个范式:自回归、扩散模型、强化学习、混合方法及专用方法;同时详细探讨了这些方法的设计动机、核心策略与实现方式。
此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发展的机遇与挑战。

- 论文标题:Pure Vision Language Action (VLA) Models: A Comprehensive Survey
- 论文链接:https://arxiv.org/abs/2509.19012
一、引言
机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些方法通常应用于简单、重复性的任务,例如工厂装配线作业和物流分拣。近年来,人工智能技术的快速发展使研究人员能够利用深度学习在多种模态(包括图像、文本和点云)下的特征提取与轨迹预测能力。通过整合感知、检测、跟踪和定位等技术,研究人员将机器人任务分解为多个阶段,以满足执行需求,进而推动了xx智能与自动驾驶技术的发展。然而,目前大多数机器人仍以"孤立智能体"的形式运行------它们专为特定任务设计,缺乏与人类及外部环境的有效交互。
为解决这些局限性,研究人员开始探索整合大型语言模型(Large Language Models, LLMs)与视觉-语言模型(VLMs),以实现更精准、灵活的机器人操作。现代机器人操作方法通常采用视觉-语言生成范式(如自回归模型或扩散模型),并结合大规模数据集与先进的微调策略。我们将这类模型称为VLA基础模型,它们显著提升了机器人操作的质量。对生成内容的细粒度动作控制为用户提供了更高的灵活性,释放了VLA在任务执行中的实际应用潜力。
尽管VLA方法前景广阔,但针对纯VLA方法的综述仍较为匮乏。现有综述要么聚焦于VLMs基础模型的分类体系,要么对机器人操作技术进行整体的宽泛概述。首先,VLA方法是机器人领域的新兴方向,目前尚未形成公认的方法体系与分类标准,这使得系统总结这类方法面临挑战。其次,当前综述要么基于基础模型的差异对VLA方法进行分类,要么对机器人应用领域的整个发展历程进行全面分析,且往往侧重于传统方法,而对新兴技术关注不足。虽然这些综述提供了有价值的见解,但它们要么对机器人模型的探讨较为浅显,要么主要聚焦于基础模型,导致在纯VLA方法的研究文献中存在明显空白。
本文对VLA方法及相关资源进行了深入研究,针对现有方法提供了聚焦且全面的综述。我们的目标是提出清晰的分类体系、系统总结VLA研究成果,并阐明这一快速发展领域的演进轨迹。在简要概述LLMs与VLMs之后,本文重点关注VLA模型的策略设计,突出以往研究的独特贡献与显著特征。我们将VLA方法分为五类:自回归型、扩散型、强化学习型、混合型及专用方法,并详细分析了各类方法的设计动机、核心策略与实现机制(如图2所示,本文展示了这些方法的VLA框架结构)。
此外,本文还探讨了VLA的应用领域,包括机械臂、四足机器人、人形机器人和轮式机器人(自动驾驶车辆),全面评估了VLA在不同场景下的部署情况。考虑到VLA模型对数据集与仿真平台的高度依赖,本文还简要概述了这些关键资源。最后,基于当前VLA研究现状,本文指出了该领域面临的关键挑战,并勾勒了未来研究方向------包括数据局限性、推理速度与安全性等问题------以加速VLA模型与通用机器人技术的发展。

本综述的整体结构如图1所示:第2章概述VLA研究的背景知识;第3章介绍机器人领域现有的VLA方法;第4章阐述VLA方法所使用的数据集与基准测试集;第5章与第6章分别讨论仿真平台与机器人硬件;第7章进一步探讨基于VLA的机器人方法面临的挑战与未来方向;最后,对全文进行总结,并对未来发展提出展望。
综上,本文的主要贡献如下:
- 提出了结构清晰的纯VLA方法分类体系,根据其动作生成策略对方法进行分类。这一分类体系有助于理解现有方法,并突出该领域的核心挑战。
- 综述强调了每类方法与技术的显著特征及方法创新,为当前研究提供了清晰的视角。
- 全面概述了用于VLA模型训练与评估的相关资源(数据集、基准测试集与仿真平台)。
- 探讨了VLA在机器人领域的实际应用价值,指出了现有技术的关键局限性,并提出了潜在的进一步研究方向。

二、背景
视觉-语言-动作(VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术迈出了重要一步,同时也将视觉-语言模型(VLMs)从被动的序列生成器转变为能够在复杂动态环境中进行操作和决策的主动智能体。本章将从单模态基础模型的发展、VLA模型的演进,以及通用xx智能的未来方向三个维度,梳理VLA研究的技术背景。
早期:LLM/VLM基础模型
单模态建模的突破为多模态融合奠定了方法学和工程基础。在不同模态领域,一系列里程碑式的模型为VLA的诞生积累了关键技术能力:
计算机视觉领域
计算机视觉领域的核心进展在于建立了从局部卷积到深度表征学习的范式,并通过注意力机制进一步提升了模型的迁移性和泛化能力:
- 卷积神经网络(CNNs):AlexNet首次证明了深度CNN在图像分类任务中的优越性,开启了深度视觉学习的时代;ResNet通过残差连接解决了深度网络训练中的梯度消失问题,进一步推动了网络深度的提升。
- 视觉Transformer(ViT):ViT将自注意力机制引入图像领域,将图像分割为固定大小的"图像块"(image patches)并将其视为序列输入,大幅提升了模型对全局信息的捕捉能力,为跨模态序列建模提供了重要参考。
自然语言处理领域
自然语言处理(NLP)领域的突破源于Transformer架构的提出,该架构支持大规模预训练和模态对齐技术,催生出具备强大推理、指令跟随和上下文学习能力的大型语言模型(LLMs):
- 代表性模型包括BERT(双向Transformer预训练模型,擅长理解任务)、GPT系列(生成式预训练Transformer,从GPT-1到GPT-4,逐步提升了长文本生成和复杂推理能力)、T5(文本到文本统一框架,支持多种NLP任务)。
- 这些模型通过海量文本数据的预训练,掌握了丰富的语义知识和语言逻辑,为后续融合视觉信息、生成动作指令奠定了语言理解基础。
强化学习领域
强化学习领域的进展聚焦于策略优化和序列决策能力的提升,从早期的深度Q网络(DQN)、近端策略优化(PPO),到后来的决策Transformer(Decision Transformer),形成了通过序列建模统一控制任务的新视角。决策Transformer将强化学习中的"状态-动作-奖励"序列视为文本序列进行建模,为VLA中"感知-语言-动作"的统一序列处理提供了思路。
视觉-语言模型
VLMs作为连接单模态学习与xx智能的关键桥梁,经历了从模态对齐到复杂跨模态理解的发展过程:
- 早期对齐模型:ViLBERT、VisualBERT通过双流或单流Transformer架构实现图像与文本的对齐和融合,初步解决了跨模态表征问题。
- 对比学习模型:CLIP(对比语言-图像预训练)通过大规模图像-文本对的对比学习,将两种模态映射到共享嵌入空间,支持零样本和少样本识别与检索,为VLA的"视觉-语言"基础对齐提供了核心技术。
- 指令微调模型:BLIP-2、Flamingo、LLaVA等模型通过指令微调,强化了开放域跨模态理解、细粒度接地(grounding)和多轮推理能力,能够更好地理解人类语言指令与视觉场景的关联,为VLA模型的"动作生成"环节奠定了跨模态理解基础。
现状:VLA模型的发展从LLM/VLM到VLA模型的演进
随着LLM和VLM技术的成熟,研究自然地向"视觉-语言-动作"一体化方向推进。VLA模型将视觉感知、语言理解和可执行控制统一在单一序列建模框架中,其核心设计思路包括:
- 模态token化:将图像(如通过ViT编码为视觉token)、语言指令(如通过LLM编码为文本token)、机器人状态(如关节角度、传感器反馈)和动作(如控制指令)均转换为统一的token格式。
- 自回归动作生成:以视觉token、文本token和状态token为前缀或上下文,自回归生成动作token序列,最终解码为机器人可执行的控制指令,从而闭合"感知-语言-动作"循环。
与传统的"感知-规划-控制"分阶段流水线相比,VLA的优势在于:
- 端到端跨模态对齐,无需手动设计模态间的转换模块;
- 继承VLMs的语义泛化能力,能够理解模糊或开放域语言指令;
- 通过显式的状态耦合和动作生成,提升对环境干扰的鲁棒性和长任务执行能力。
这一演进路径------从单模态到多模态,再到"多模态+可执行控制"------为机器人"看见、理解并行动"提供了方法论基础。
数据与仿真的支撑作用
VLA模型在机器人领域的发展高度依赖高质量数据集和能够仿真真实场景复杂度的仿真平台,二者共同解决了深度学习驱动的机器人技术"数据稀缺"和"实机测试风险高"的核心问题:
(1)数据集:真实与通用的双重支撑
当前VLA模型多基于数据驱动,数据集的规模、多样性和标注质量直接决定模型性能:
- 真实世界数据集:采集过程需大量人力和资金投入,但能反映真实环境的复杂性。例如:
- BridgeData涵盖10个环境中的71项任务,支持跨领域机器人技能迁移;
- Open X-Embodiment(OXE)整合了21个机构的22个机器人数据集,包含527项技能和160266个任务,通过标准化数据格式促进VLA研究的可复现性。
- 互联网视频数据集:为解决真实机器人数据稀缺问题,研究人员利用互联网上的大规模人类操作视频(如日常家务、工业装配视频)作为通用数据,为VLA模型提供辅助监督,提升对"人类动作-语言指令"关联的理解。
- 数据集挑战:现有数据仍存在标注成本高、长尾场景(如罕见物体操作、突发环境变化)覆盖不足的问题,限制了VLA模型的泛化能力。
(2)仿真平台:安全与高效的测试环境
仿真平台通过生成大规模带标注数据、提供可控环境,成为VLA模型训练和评估的关键工具,其核心优势包括:
- 多样化环境与传感器配置:支持自定义场景(如家庭、工厂、户外)和传感器(RGB-D相机、IMU、触觉传感器),仿真真实机器人的感知条件;
- 物理真实性:通过精确的物理引擎(如MuJoCo的刚体动力学、Isaac Gym的GPU加速物理仿真)仿真物体碰撞、力反馈等物理交互,确保生成的"动作-效果"关联符合真实世界规律;
- 代表性平台:
- THOR:提供接近照片级真实感的3D室内场景,支持导航和物体交互任务;
- Habitat:专注于xx智能导航,支持大规模场景和多智能体交互;
- MuJoCo/Isaac Gym:擅长机器人动力学仿真,适用于机械臂操作、四足机器人 locomotion 等任务;
- CARLA:面向自动驾驶,提供真实城市交通场景和多传感器数据生成。
这些数据集和仿真平台共同缓解了真实机器人数据稀缺的问题,加速了VLA模型的训练、评估与迭代。
迈向通用xx智能
VLA模型处于视觉、语言、动作三大领域交叉的前沿,其核心目标是实现"通用xx智能"------即机器人不仅具备认知能力,还能通过物理身体与环境交互,适应多样化任务和场景。
通用xx智能的核心内涵
通用xx智能强调"身体-感知-反馈"的一体化,认为类人智能行为不仅依赖认知处理,还需结合物理身体的运动能力、环境感知能力和实时反馈机制。为适应不同任务需求,通用xx智能可通过多种机器人形态实现:
- 家庭场景的人形机器人、工业场景的灵巧操作机械臂、特殊场景的仿生机器人(如水下机器人、无人机)等。
- 这些机器人需在开放环境中自主理解任务(如"整理桌面""修复设备")、规划动作、应对突发变化,最终实现跨场景、跨任务的通用操作能力。
VLA模型的潜力与挑战
VLA模型通过整合视觉编码器的表征能力、LLM的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用xx智能的核心路径。目前,VLA已在视觉-语言-动作交互中取得显著进展,但仍面临以下挑战:
- 可扩展性:现有模型难以适应大规模、多样化的真实场景(如从实验室到户外、从单一任务到多任务);
- 泛化性:在训练数据未覆盖的场景(如未知物体、复杂光照)中,动作生成的准确性和安全性下降;
- 安全性:实机部署时,模型可能因环境干扰或指令歧义生成危险动作(如碰撞人类或设备);
- 真实世界部署:仿真环境与真实环境的差异("仿真到现实差距")导致模型在实机上的性能衰减。
尽管存在挑战,VLA仍被广泛认为是xx人工智能的关键前沿方向,其发展正逐步向通用xx智能的愿景迈进。
三、视觉-语言-动作(VLA)模型
近年来,得益于多模态表征学习、生成式建模和强化学习的进展,VLA模型实现了快速且系统性的发展。本章将梳理VLA的主要方法范式,包括自回归模型、扩散模型、强化学习模型,以及混合与专用设计,并分析各范式的核心创新、代表模型与局限性。
视觉-语言-动作研究中的自回归模型
自回归模型是VLA任务中序列生成的经典且高效范式。该类模型将动作序列视为时间依赖过程,基于历史上下文、感知输入和任务指令逐步生成动作。随着Transformer架构的发展,现代VLA系统已证明该范式的可扩展性和鲁棒性。
自回归通用VLA方法
通用VLA智能体的研究核心是将感知、任务指令和动作生成统一在自回归序列建模框架中,通过对多模态输入的token化,实现跨任务的逐步动作生成。其发展历程可概括为三个阶段:
- 早期统一token化:Gato(2022)首次实现对异质模态(视觉、语言、状态、动作)的token化,通过单一Transformer架构进行联合训练,证明了"多模态统一建模"的可行性。
- 大规模真实数据训练:RT-1(2022)基于13万条真实世界演示数据训练,通过FiLM(特征调制)实现多模态融合,提升了实机控制的准确性;RT-2(2023)在PaLM-E基础上扩展动作token,并融入网络级VLM知识,支持开放词汇表抓取(如"拿起红色杯子");PaLM-E(2023)将预训练语言模型知识融入xx控制,可处理视觉问答(VQA)、导航、操作等多任务。
- 跨平台泛化与效率优化:为解决"不同机器人形态适配"问题,Octo(2024)通过150万条视频数据训练开源跨机器人策略,支持无奖励模仿学习;LEO(2024)通过两阶段训练实现3D视觉-语言对齐与VLA微调;UniAct(2025)定义"通用原子动作",解决跨机器人形态的异质性问题。同时,轻量化设计成为趋势:NORA(2025)采用FAST+tokenizer和97万条演示数据,构建轻量级开源VLA;RoboMM(2024)通过模态掩码实现多模态融合,在RoboData数据集上达到最优性能。
此外,近期研究还关注推理能力整合:OneTwoVLA(2025)设计自适应"系统1(快速反应)-系统2(深度推理)"机制,支持长任务规划和错误恢复;UP-VLA(2025)通过统一提示框架融合任务、视觉和动作信息,提升少样本性能。
目前,自回归通用VLA已从概念验证转向强调可扩展性、语义推理和部署效率的阶段,但在安全性、可解释性和人类价值观对齐方面仍存在未解决问题。

基于LLM的自回归推理与语义规划
LLM的融入使VLA系统从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制。其发展可分为四个方向:
- 自对话推理:Inner Monologue(2022)引入"动作前规划-动作后反思"的自对话推理循环,提升xx任务成功率;Instruct2Act(2023)设计"视觉-语言-任务脚本-动作"流水线,通过语义中介连接语言指令与动作生成;RoboFlamingo(2023)适配OpenFlamingo至机器人领域,实现VLM到VLA的高效迁移。
- 反馈与分层规划:Interactive Language(2022)支持实时语言修正,允许人类在任务执行中调整指令;Hi Robot(2025)采用"粗到细"分层规划,处理长语言指令;Mobility VLA(2024)将长上下文VLM与导航结合,支持多模态指令跟随;NORA(2025)强调轻量化部署,适合资源受限场景。
- 分层控制与链推理:DexGraspVLA(2025)结合VLM规划与扩散模型,实现鲁棒灵巧抓取;CoT-VLA(2025)引入视觉链推理(Visual Chain-of-Thought),通过预测目标提升长任务稳定性;HAMSTER(2025)利用域外数据训练分层VLA,增强泛化能力;InSpire(2025)通过空间推理提示减少虚假关联,提升推理可靠性。
- 平台化与规模化:Gemini Robotics(2025)基于Gemini 2.0构建多任务xx推理平台;(2025)通过异质机器人数据训练,支持开放世界泛化;FAST(2025)设计变长动作token,提升长任务执行效率;LLaRA(2024)通过对话任务增强数据,提升VLM到VLA的迁移能力。
尽管该方向已从语义中介发展为交互式分层规划系统,但仍面临幻觉控制(生成与场景无关的推理结果)、多模态对齐稳定性、实时安全性等挑战。
自回归轨迹生成与视觉对齐建模
该方向通过自回归建模强化"感知-动作"映射,同时确保视觉-语言语义对齐,核心是基于多模态观测解码运动轨迹或控制token,为"指令跟随-动作执行"提供统一机制。
- 早期语言-轨迹映射:LATTE(2022)首次证明直接将语言映射为运动轨迹的可行性,为后续多模态扩展奠定基础;VIMA(2023)通过语言、视觉、动作的统一token化,实现强跨任务泛化(主要在仿真环境中);InstructRL(2023)采用联合视觉-语言编码器与策略Transformer,提升模态对齐精度。
- 视频预测与世界建模:GR-1(2024)、GR-2(2024)将视频生成预训练迁移至机器人领域,GR-2进一步融入网络级视频-语言监督,支持零样本操作;WorldVLA(2025)通过联合视觉-动作建模,缓解自回归误差累积问题;TraceVLA(2025)引入视觉轨迹提示(Visual Trace Prompting),捕捉长任务中的关键线索。
- 跨机器人形态适配:Bi-VLA(2024)设计双臂预测器,支持协同双手机械操作;RoboNurse-VLA(2024)在医疗场景中实现高精度手术抓取;Moto(2025)通过"运动语言token"连接视频预训练与动作执行,提升模型迁移能力;OpenVLA(2024)发布70亿参数开源模型,基于97万条轨迹训练,性能超越RT-2-X,支持跨平台泛化。
- 多模态感知扩展:VTLA(2025)融合视觉-触觉输入与偏好优化,在未知任务中的成功率超过90%;PointVLA(2025)将点云注入预训练VLA,实现轻量化3D推理;GraspVLA(2025)基于GraspVerse预训练GPT风格解码器,支持真实世界抓取迁移;OpenDriveVLA(2025)将2D/3D感知对齐到统一语义空间,生成自动驾驶轨迹。
该方向已从"语言-轨迹直接映射"发展为涵盖多模态预训练、视频驱动世界建模、跨形态适配的生态,但在长任务稳定性、噪声输入下的语义接地、实机部署效率方面仍需改进。
自回归VLA的结构优化与高效推理
为实现VLA模型的规模化部署和实时控制,研究聚焦于减少计算冗余、缩短推理延迟、保持跨场景鲁棒性,主要方向包括:
- 分层与模块化优化:HiP(2023)将任务分解为符号规划、视频预测、动作执行三阶段,支持自回归模型的长任务推理;Actra(2024)通过轨迹注意力和可学习查询优化Transformer,降低计算开销;领域专用优化(如空间VLA的体素网格与空间注意力、VLA-Cache的自适应键值缓存)进一步减少冗余计算。
- 动态自适应推理:DeeR-VLA(2024)基于任务复杂度实现解码早期终止,降低实时控制成本;FAST(2025)将长动作序列压缩为变长token,提升推理效率;BIT-VLA(2025)采用1位量化(1-bit quantization),将内存占用降至30%,同时保持性能。
- 轻量化压缩与并行化:MoLe-VLA(2025)通过混合专家(Mixture-of-Experts)路由实现动态层跳过,降低40%计算成本;PD-VLA(2025)采用并行定点解码,无需重新训练即可加速推理;CLIPort(2021)分离"是什么(what)"和"在哪里(where)"路径,生成动作热力图,提升计算效率。
- 多模态推理与效率融合:OTTER(2025)将语言感知注入视觉编码,增强模态对齐;ChatVLA(2025)通过专家路由和分阶段对齐实现规模化;LoHoVLA(2025)构建统一分层控制,支持超长任务闭环执行。
该方向已从早期分层分解发展为自适应计算、轻量化压缩、多模态感知融合的综合优化体系,为实机部署提供了关键技术支撑,但仍需进一步探索硬件感知协同优化和安全机制。
自回归模型的创新与局限
- 创新点:通过Transformer架构统一多模态感知、语言推理和序列动作生成,支持跨任务泛化;融入LLM实现语义规划,扩展长任务处理能力;通过轨迹生成与视觉对齐,提升动作准确性;结构优化与量化技术降低部署成本。
- 局限:自回归解码存在误差累积和延迟问题;多模态对齐在噪声输入下易失效;大规模模型训练需海量数据和计算资源;推理过程的幻觉、稳定性和可解释性不足;效率优化常以精度或泛化为代价。
视觉-语言-动作研究中的扩散模型
扩散模型(含流匹配、变分自编码器等)作为生成式AI的变革性范式,在VLA框架中展现出独特优势:通过将动作生成建模为"条件去噪过程",实现概率性动作生成,支持从同一观测生成多种有效轨迹。本章从通用方法、多模态融合、应用部署三个维度梳理其发展。
扩散通用VLA方法

扩散模型在VLA中的核心突破是将机器人控制从"确定性回归"转变为"概率性生成",其发展聚焦于表征结构丰富化和生成稳定性提升:
- 几何感知生成:SE(3)-DiffusionFields(2023)将扩散模型扩展到SE(3)位姿空间,学习平滑代价函数,联合优化抓取与运动规划,确保动作的物理一致性;3D Diffuser Actor(2024)通过条件扩散嵌入3D场景信息,提升轨迹生成的空间合理性。
- 视频驱动生成:UPDP(2023)将决策视为"视频生成"任务,以图像为交互接口、语言为指导,利用视频的时间连续性提升长任务规划能力;AVDC(2024)通过光流和运动重建,从无动作标签的视频中学习视觉运动策略;RDT-1B(2025)构建大规模扩散模型,通过时间条件建模支持双手机械操作的零样本泛化。
- 时间一致性优化:TUDP(2025)通过跨时间步的统一扩散 velocity 场和动作判别机制,提升轨迹时间连贯性;CDP(2025)利用历史动作条件和缓存机制,减少动态环境中的动作抖动;DD VLA(2025)将动作分割为离散块,通过离散扩散和交叉熵训练提升生成效率。
该方向已实现从"确定性动作"到"概率性多轨迹生成"的转变,支持几何感知和时间一致的动作生成,但在动态环境中的轨迹稳定性仍需改进。
基于扩散的多模态架构融合
扩散模型与Transformer的结合是该方向的核心趋势------注意力机制天然适配生成式建模,而多模态融合则需解决"异质模态保留独特属性"的挑战:
- 大规模扩散Transformer:Dita(2025)构建可扩展扩散Transformer,直接对连续动作进行去噪;Diffusion Transformer Policy(2025)通过超大规模注意力架构(超小动作头设计),提升连续动作建模精度,自注意力的归纳偏置与机器人行为的组合性高度契合。
- 多模态token对齐:M-DiT(2024)将视觉、语言、位置目标映射为统一多模态token,支持灵活的条件扩散生成;ForceVLA(2025)将6轴力传感视为一级模态,通过力感知混合专家(MoE)融合触觉-视觉-语言嵌入,提升接触密集型操作的准确性。
- 推理与扩散结合:Diffusion-VLA(2025)引入"自生成推理"模块,生成符号化中间表示,连接语言推理与扩散动作生成;CogACT(2024)通过语义场景图整合感知、推理与控制,增强模型对任务逻辑的理解;PERIA(2024)联合微调多模态LLM与图像编辑模型,提升子目标规划能力。
- 预训练模型复用:SuSIE(2023)复用预训练图像编辑扩散模型,通过生成目标图像实现零样本机器人操作;Chain-of-Affordance(2024)将任务解析为"序列可用性子目标",显式建立"感知-动作"对,提升复杂环境中的任务分解能力;(2024)在"观测-理解-执行"循环中,将视频和语言编码为 latent token,支持端到端控制。
该方向已从"单一架构适配"发展为融合推理、多传感输入、预训练知识的认知启发框架,但计算成本高、数据集多样性不足仍是主要瓶颈。
扩散VLA的应用优化与部署
扩散模型的实机部署需解决效率、适应性和鲁棒性三大核心问题,近期研究呈现"智能稀疏化""认知启发设计""防御性AI"三大趋势:
- 效率优化:TinyVLA(2025)通过LoRA微调(仅5%可训练参数)降低训练成本,支持单GPU训练;SmolVLA(2025)通过异步推理在消费级硬件上部署紧凑VLA;VQ-VLA(2025)采用向量量化tokenizer,缩小"仿真到现实"差距;OFT(2025)通过并行解码、动作分块和连续表征学习,优化微调效率。
- 任务适应性:DexVLG(2025)在DexGraspNet上训练大规模抓取模型,支持灵巧手零样本抓取;AC-DiT(2025)通过多模态移动性条件适配扩散Transformer,支持移动操作;ObjectVLA(2025)无需人类演示即可实现开放世界物体操作;SwitchVLA(2025)基于状态-上下文信号建模"执行感知任务切换",适应动态环境。
- 认知启发架构:MinD(2025)整合低频视频预测(战略规划)与高频扩散策略(反应式控制);TriVLA(2025)分离视觉语言推理、动力学感知和策略学习模块,实现36Hz交互频率;Hume(2025)融合双系统价值引导推理与快速去噪,平衡精度与速度;DreamVLA(2025)通过自反思循环(含链推理、错误token、专家层)提升鲁棒性。
- 领域扩展与基础模型:DriveMoE(2025)采用场景/动作专用混合专家架构,提升自动驾驶闭环控制性能;DreamGen(2025)生成神经轨迹,支持人形机器人学习新任务;EnerVerse(2025)通过自回归视频扩散预测xx未来;FP3(2025)构建大规模3D基础扩散策略,基于6万条轨迹预训练;GR00T N1(2025)将多模态Transformer整合为人形机器人基础模型。
- 鲁棒性提升:BYOVLA(2025)在推理时动态编辑无关视觉区域,无需重训练即可增强鲁棒性;GEVRM(2025)基于文本引导视频生成,提升复杂场景中的操作可靠性;VidBot(2025)从单目视频中重建3D可用性(affordance),支持零样本操作。
该方向已从"实验室原型"转向"跨领域实用系统",但在安全关键场景的可靠性、泛化到极端环境的能力方面仍需突破。
扩散模型的创新与局限
- 创新点:将机器人控制重构为生成式问题,支持概率性动作生成;通过多模态融合增强场景理解;轻量化设计和认知启发架构提升部署可行性;在自动驾驶、人形机器人等领域实现专用适配。
- 局限:动态环境中的时间连贯性差;大规模模型需海量数据和计算资源;安全关键场景的可靠性未充分验证;多模态融合可能稀释单模态优势;领域专用适配可能降低迁移性。
视觉-语言-动作研究中的强化学习微调模型
强化学习(RL)微调模型通过融合视觉-语言基础模型与强化学习算法,增强VLA的感知、推理和决策能力。该类模型利用视觉和语言输入生成上下文感知动作,在自动驾驶、机器人操作、xxAI等领域展现出优势,尤其擅长结合人类反馈、适应新任务,性能常超越纯监督范式。

VLA研究中的强化学习微调策略
强化学习在VLA中的应用聚焦于"奖励设计""策略优化""跨任务迁移",其发展可分为以下方向:
- 自监督奖励与表征学习:VIP(2023)从无动作视频中学习与动作无关的"目标条件价值函数",通过嵌入距离隐式评估价值,生成平滑表征;LIV(2023)基于视觉预训练生成密集奖励函数,支持未知任务;PR2L(2024)融合VLM世界知识与RL,提升机器人操作的泛化性;ALGAE(2024)通过语言引导抽象解释RL驱动行为,增强可解释性。
- 跨模态奖励代理与人类反馈:ELEMENTAL(2025)通过VLM语义映射从演示数据中学习奖励代理,支持复杂操作任务的快速定制;SafeVLA(2025)从安全角度优化VLA,引入"约束学习对齐机制":通过安全评论网络(Safety Critic Network)估计风险水平,利用约束策略优化(CPO)框架在最大化奖励的同时,确保安全损失低于预设阈值,显著降低多任务(操作、导航、处理)中的风险事件,尤其适用于语言指令模糊的场景。
- 跨机器人形态适配:NaVILA(2025)通过单阶段RL策略微调VLA,输出连续控制指令,适应复杂地形和动态语言指令;MoRE(2025)将多个低秩自适应模块作为"专家"融入密集多模态LLM,构建稀疏激活混合专家模型,以Q函数形式通过RL目标训练,提升四足机器人VLA的规模化能力;LeVERB(2025)设计分层VLA框架,将视觉-语言处理与动力学级动作处理耦合,通过RL将"潜在词汇"转换为高频动态控制指令,支持人形机器人全身控制(WBC)。
- 离线与在线RL融合:ReinboT(2025)基于离线混合质量数据集,通过预测密集奖励捕捉任务差异,引导机器人生成长期收益最优的决策;SimpleVLA-RL(2025)仅用单条轨迹和二元(0/1)结果奖励训练,无需密集监督或大规模行为克隆数据,性能接近全轨迹监督微调(SFT);ConRFT(2025)结合离线行为克隆(BC)、Q学习(提取有限演示中的策略、稳定价值估计)与在线一致性目标(人工干预确保安全探索),平衡样本效率与策略安全性。
- 领域扩展与效率优化:AutoVLA(2025)在自动驾驶领域引入自回归生成模型,通过"链推理微调"和"组相对策略优化"生成离散可行动作,重建连续轨迹;RPD(2025)通过RL蒸馏从VLA教师模型中学习学生模型,提升推理速度;RLRC(2025)通过"结构化剪枝-SFT+RL恢复-量化"的压缩框架,在降低内存占用、提升推理吞吐量的同时,保持原VLA的任务成功率。
强化学习模型的创新与局限
- 创新点:利用视觉-语言信号生成可迁移的密集奖励代理;结合离线BC与在线RL稳定策略优化;引入安全约束降低开放环境风险;适配四足、人形、自动驾驶等多形态机器人,展现强通用性。
- 局限:奖励工程常存在间接性或噪声,导致学习次优;监督微调与探索的相互作用影响训练稳定性;高维真实环境中的训练计算成本高;安全策略在对抗性指令下的泛化性不足。
其他先进研究方向
除自回归、扩散、强化学习三大基础范式外,VLA研究还涌现出融合多范式、增强多模态理解、适配专用领域、构建基础模型、优化实际部署的先进方向,进一步扩展了VLA的能力边界。
混合架构与多范式融合

针对复杂xx任务的多样性,混合架构通过组合多范式优势(如扩散的物理一致性、自回归的推理能力、RL的适应性),构建更灵活的VLA系统:
- HybridVLA(2025)在70亿参数框架中统一扩散轨迹生成与自回归推理,兼顾动作平滑性与上下文理解;
- RationalVLA(2025)通过 latent 嵌入连接高层推理与低层策略,过滤不可行指令,规划可执行动作;
- OpenHelix(2025)通过大规模实证研究提供标准化混合VLA设计,含开源实现与设计指南;
- Fast-in-Slow(2025)基于"双系统理论",在慢节奏VLM骨干中嵌入低延迟执行模块,平衡实时响应与高层推理;
- Transformer-based Diffusion Policy(2025)构建十亿参数架构,融合扩散与注意力机制,超越传统U-Net设计,捕捉更丰富的轨迹上下文依赖。
先进多模态融合与空间理解
该方向突破"简单特征拼接",通过建模几何、可用性(affordance)和空间约束,提升VLA的3D场景理解与动作 grounding 能力:
- CLIPort(2021)分离"what"(物体识别)与"where"(动作定位)路径,利用CLIP生成动作热力图,增强视觉-动作对齐;
- VoxPoser(2023)通过LLM引导的可组合3D价值图,将指令解析为目标理解与体素空间动作规划;
- 3D-VLA(2024)通过生成式3D世界模型整合感知、语言与动作,实现3D场景中的连贯控制;
- ReKep(2024)基于关系关键点图建模时空依赖,适用于精度敏感任务(如精密装配);
- RoboPoint(2024)预测可用性地图作为规划先验,提升复杂场景中的动作可行性;
- BridgeVLA(2025)将3D观测投影到多视角2D热力图,提升动作预测的样本效率;
- GeoManip(2025)嵌入符号化几何约束,无需任务重训练即可泛化动作(如不同尺寸物体的抓取)。
专用领域适配与应用
VLA框架在安全关键、数字交互、人形控制等专用领域的适配,不仅验证了其通用性,也推动了领域特定技术创新:
- 自动驾驶:CoVLA(2024)构建首个大规模自动驾驶VLA数据集,含5万条语言指令-轨迹对,支持导航与危险规避;AutoRT(2024)通过"观测-推理-执行"框架协调机器人集群,将PaLM-E、RT-2等VLM作为战略规划器;
- GUI交互:ShowUI(2024)将VLA应用于图形界面操作,处理点击、拖拽、表单填写等动作,在GUI-Bench上表现优异;
- 人形全身控制:LeVERB(2025)通过"视觉-语言策略学习潜在动作词汇+RL控制层生成动力学指令"的双层设计,实现150+任务的鲁棒"仿真到现实"迁移;Helix(2024)通过单一统一策略网络,实现人形机器人操作、 locomotion 、跨机器人协作;
- 特殊任务:CubeRobot(2025)采用"视觉链推理(VisionCoT)+记忆流"双循环设计,解决魔方还原任务,中低复杂度场景成功率接近100%;EAV-VLA(2025)设计对抗性补丁攻击,用于测试VLA的鲁棒性(如防止机器人被恶意指令误导);
- 移动操作:MoManipVLA(2025)通过航点优化和双层运动规划,将固定基座VLA迁移至移动机器人(如自主导航+抓取)。
基础模型与大规模训练
基础模型通过海量多模态数据训练,为VLA提供"通用先验",支持跨任务、跨形态泛化,是该方向的核心趋势:
- 大规模数据集:DROID(2025)提供15万+轨迹数据,涵盖1000+物体和任务,含RGBD、语言、低维状态等多模态标注;ViSA-Flow(2025)从大规模人类-物体交互视频中提取语义动作流,预训练生成模型,下游机器人学习仅需少量适配;
- 训练策略优化:Zhang等人(2024)通过2500次滚动实验,分析动作空间、策略头设计、监督信号等微调因素,提供基础VLA适配指南;Chen等人(2025)将链推理融入xx策略学习,推理速度提升3倍;
- 统一基础模型:RoboBrain(2025)提出"感知-推理-规划"统一xx基础模型;VC-1(2024)通过4000+小时视频预训练(MAE初始化Transformer),探索数据规模对VLA性能的影响;CAST(2025)通过反事实语言和动作生成增强数据集多样性,提升模型鲁棒性。
实际部署:效率、安全与人机协作
VLA从研究走向应用,需解决实时推理、鲁棒性、人机交互三大核心问题,相关研究聚焦于"系统优化+安全机制+人类协同":
(1)效率优化
- 推理加速:EdgeVLA(2024)去除末端执行器预测的自回归依赖,采用紧凑LLM,推理速度提升6倍;DeeR-VLA(2024)基于置信度的早期退出机制,降低在线控制成本;CEED-VLA(2025)通过一致性蒸馏和早期退出解码,推理速度提升4倍,同时通过混合标签监督缓解误差累积;
- 轻量化设计:RoboMamba(2024)采用轻量化多模态融合,适用于资源受限设备;BitVLA(2025)通过1位量化降低内存占用;MoLe-VLA(2025)动态跳过冗余层,降低40%计算成本;
- 部署适配:RTC(2025)支持动作分块策略的异步平滑执行;cVLA(2025)通过2D航点预测提升"仿真到现实"迁移能力;ReVLA(2025)实现跨视觉领域(如室内/户外光照)的自适应,增强鲁棒性。
(2)安全与鲁棒性
- 故障检测:SAFE(2025)利用VLA内部特征信号检测多任务故障,泛化至未知场景;
- 对抗性防御:Cheng等人(2024)通过物理脆弱性评估程序(PVEP),发现VLA对 adversarial patches、字体攻击、分布偏移的脆弱性,推动鲁棒感知-控制 pipeline 研发;
- 可解释性:Lu等人(2025)揭示VLA隐藏层中"物体-关系-动作"的符号化编码,为透明决策奠定基础;
- 自适应控制:DyWA(2025)联合建模几何、状态、物理和动作,适应动态部分可观测环境。
(3)人机协作
- 人类反馈融合:Xiang等人(2025)设计协作框架,将有限专家干预融入VLA决策,降低操作员工作量并丰富训练数据;
- 闭环交互:Zhi等人(2025)结合GPT-4V感知与实时反馈控制,动态适应环境变化;
- 任务接地:CrayonRobo(2025)通过物体中心提示实现可解释接地(如"拿起红色杯子"对应视觉中的红色区域);
- 技能复用:历史感知策略学习(2022)和接地掩码方法(2025)支持任务分解与技能库构建,提升协作效率。
其他先进方向的创新与局限
- 创新点:混合架构整合多范式优势;3D空间理解增强动作 grounding;专用领域适配拓展VLA应用边界;基础模型提供通用先验;部署优化解决实时性、安全性与协作问题。
- 局限:混合系统计算成本高、可扩展性差;多模态融合在噪声输入下易失效;领域适配可能导致过拟合;基础模型需海量数据与计算资源;部署中的鲁棒性、可解释性仍需提升。
四、数据集与基准测试
与其他模仿学习方法类似,视觉-语言-动作(VLA)模型依赖高质量的标注数据集。这些数据集要么来自真实场景采集,要么通过仿真环境生成(数据集样本如图4所示)。通常,数据集包含多模态观测数据(如图像、激光雷达点云、惯性测量单元(IMU)数据等),以及对应的真值标签和语言指令。为便于系统理解,本文对现有数据集和基准测试进行分析,并提出一种分类方法------根据数据集的复杂度、模态类型和任务多样性对其进行分类。该分类方法为评估不同数据集对VLA研究的适用性提供了清晰框架,并指出了现有资源中可能存在的空白(代表性研究总结于表5)。


真实世界数据集与基准测试
高质量的真实世界数据集是开发可靠VLA算法的基础。近年来,研究人员已采集了大量高质量、多样化的真实世界机器人数据集,涵盖不同传感器模态、各类任务及多种环境场景。
xx机器人领域的真实世界数据集与基准测试
真实世界xx机器人数据集,指通过机器人在环境中进行感知与动作交互所获取的多模态数据集合。这类数据集专门用于捕捉视觉、听觉、本体感觉和触觉等多模态输入,与相应电机动作、任务意图及环境背景之间的复杂交互关系。它们是训练和评估xx人工智能模型的关键资源------xx人工智能的目标是让机器人在动态环境中通过闭环自适应行为完成任务。通过提供丰富且时间对齐的观测数据与动作数据,这些数据集为模仿学习、强化学习、视觉-语言-动作及机器人规划等领域的算法开发与基准测试提供了基础支持。
当前,xx机器人数据集面临显著的数据成本问题,因为真实世界机器人数据的大规模采集难度较大。采集真实世界机器人数据集面临诸多挑战:不仅需要硬件设备支持,还需实现精准操控。其中,MIME、RoboNet和MT-Opt已采集了涵盖从简单物体推动到复杂家居物品堆叠等多种任务的大规模机器人演示数据集。与以往数据集通常假设每个任务仅有一条最优轨迹不同,这些数据集针对同一任务提供了多个演示样本,并将测试轨迹间的最小距离作为评估指标。该方法极大推动了操纵任务与VLA任务的研究进展。
BridgeData提供了一个大规模跨领域机器人数据集,包含10个环境中的71项任务。实验表明,将该数据集与新领域中少量未见过的任务(如50项任务)联合训练,相比仅使用目标领域数据,任务成功率可提升一倍。因此,许多现代VLA方法均采用BridgeData进行模型训练。
在xx人工智能领域,模型的泛化能力常受限于真实世界机器人数据采集的多样性不足。RT-1提供了一个涵盖广泛真实世界机器人任务的数据集,以同时提升任务性能和对新场景的泛化能力。类似地,Bc-z包含了此前未见过的操纵任务,这些任务涉及同一场景中物体的新组合,为通用策略学习研究提供了支持。部分数据集还为xx人工智能提供了全面的软件平台与生态系统,涵盖手部操纵、移动、多任务处理、多智能体交互及基于肌肉控制等多种场景。
与早期研究相比,RoboHive填补了当前机器人学习能力与潜在发展空间之间的差距,支持强化学习、模仿学习、迁移学习等多种学习范式。值得注意的是,RH20T包含147项任务,涵盖110K个操纵任务片段,提供了视觉、力、音频和动作等多模态数据。每个任务片段均配有人类演示视频和语言描述,因此该数据集特别适用于单样本模仿学习,以及基于已有训练片段向新任务迁移策略的研究。
为推动更具泛化性的操纵策略开发,机器人领域需优先采集大规模、多样化的数据集,涵盖广泛的任务类型与环境场景。已有多个数据集通过多台机器人在不同地区协同采集而成,成为目前地理分布和场景多样性最高的xx机器人数据集之一。此外,Open X-Embodiment(OXE)整合了21家机构协作采集的22个机器人数据集,涵盖527项技能和160266个任务,并提供标准化数据格式,方便研究人员使用(上述数据集概述如表5(A)所示)。
在基准测试评估中,研究人员通常采用"成功率"(完成任务数量占总任务数量的比例)作为核心指标。部分研究还会额外采用"语言遵循率",以评估模型理解和执行语言指令的能力。此外,近年来的VLA模型常通过将训练后的策略迁移到未见过的环境中进行测试,以衡量模型的鲁棒性和泛化性能。
自动驾驶领域的真实世界数据集与基准测试
自动驾驶数据集与xx机器人数据集存在差异,它是人工智能最具变革性的应用领域之一,其感知、规划和控制算法的训练与评估高度依赖大规模数据集。高质量数据集是开发鲁棒且通用的自动驾驶系统的基础,可支持监督学习、基准测试,以及对罕见或安全关键场景的仿真。过去十年间,研究人员已推出多个数据集,提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据。这些数据集在地理覆盖范围、传感器配置、驾驶行为多样性和标注丰富度等方面差异显著,成为互补的研究与开发资源。
然而,大多数公开数据集是在开环场景下采集的,且主要反映正常驾驶行为,难以覆盖长尾边缘案例。为解决这一问题,近年来研究人员开始聚焦于生成合成数据、仿真闭环交互,以及构建针对罕见或安全关键事件的专用数据集。数据集设计的持续创新,对推动安全、可扩展且通用的自动驾驶系统发展至关重要。
在评估方面,自动驾驶VLA模型通常采用诸如"L2距离"(衡量与参考轨迹的偏差程度)和"完成率"(量化成功完成驾驶任务的比例)等指标。
仿真数据集与基准测试
为连续控制任务采集大规模真实世界数据面临显著挑战:这类任务需要人类标注者进行实时交互和持续反馈,且数据采集成本高、耗时长,难以实现规模化。而仿真数据则为获取大规模、高质量数据提供了可行途径------研究人员可利用虚拟化引擎生成的仿真数据,对xx机器人或自动驾驶模型进行训练与评估。
xx机器人领域的仿真数据集与基准测试
xx人工智能仿真数据集通常包含合成场景、基于物理的交互过程、导航标注、物体操纵标注、任务执行标注及智能体-环境动态关系数据。这些数据集支持对视觉导航、语义探索、复杂多步骤物体操纵等多种任务的基准测试与训练。典型示例包括Meta-World、RLBench、RoboGen等,它们在真实感、任务多样性和控制精度方面各有取舍。通过支持安全实验和大规模数据采集,仿真数据集为开发鲁棒且通用的xx智能体奠定了基础。随着领域发展,设计更丰富、更真实的仿真数据集(涵盖多样的智能体形态、任务类型和环境场景),仍是推动模型走向真实世界部署的关键。
ROBOTURK是一个用于高质量6自由度操纵状态与动作的仿真数据集,通过移动设备远程操作采集。与传统依赖远程用户在虚拟引擎中演示动作的方法不同,ROBOTURK利用策略学习生成具有不同奖励机制的多步骤机器人任务。通过聚合大量演示样本,该数据集为模型训练和评估提供了精准可靠的数据。
iGibson 0.5推出了一个用于训练和评估交互式导航方案的基准测试。该研究不仅提供了全新的实验仿真环境,还提出了专门的指标来评估导航过程中导航行为与物理交互的协同效果。该基准测试引入"交互式导航评分",包含两个子指标:路径效率和能耗效率。其中,路径效率定义为"最短成功路径长度与机器人实际行驶路径长度的比值(乘以成功指示函数)";能耗效率则衡量导航过程中所需的额外运动学和动力学能耗,反映物理交互的成本。
VIMA推出了名为VIMABENCH的新基准测试,建立了四级评估协议,以评估模型逐步提升的泛化能力------从物体随机放置场景到全新任务场景。类似地,CALVIN和Lota-Bench聚焦于利用多模态机器人传感器数据,在多样化操纵环境中学习长序列、语言条件下的任务。这些基准测试特别适合评估那些通过在大规模交互数据集上训练、并在新场景中测试以实现对未见过实体泛化的方法。此类基准测试的性能通常通过任务成功率来衡量(上述仿真数据集概述如表5(B)所示)。
自动驾驶领域的仿真数据集与基准测试
闭环仿真在确保自动驾驶系统安全性方面发挥关键作用:它能够生成真实世界中难以捕捉或存在危险的安全关键场景。尽管历史驾驶日志为构建新场景提供了宝贵资源,但闭环评估需要对原始传感器数据进行修改,以反映更新后的场景配置。例如,可能需要添加或移除交通参与者,且现有交通参与者和自车的轨迹可能与原始记录存在差异。
UniSim是一款神经传感器仿真器,可将单条记录轨迹扩展为多传感器闭环仿真。它通过构建神经特征网格来重建静态背景和动态交通参与者,并将二者合成,以仿真从新视角获取的激光雷达和相机数据,从而支持添加、移除或重新定位交通参与者。为更好地适应未见过的视角,UniSim还采用卷积网络对原始数据中不可见的区域进行补全。
与真实世界自动驾驶数据集不同,闭环仿真基准测试需要针对交互式驾驶任务设计专用评估指标。常用指标包括"行驶路线偏差"(衡量对规划轨迹的遵循程度)、"违规评分"(对交通规则违规行为进行惩罚)和"完成评分"(评估任务完成情况)。这些指标共同构成了对VLA模型在真实、安全关键驾驶场景中性能的全面评估。
讨论
创新点
本文提出了系统的分类方法、标准化评估指标,以及Open X-Embodiment(OXE)等大规模协作项目------OXE整合了来自多机构的数据集,可促进研究的可复现性和泛化性。这些贡献扩大了任务覆盖范围,丰富了模态组合类型,并提升了跨领域策略迁移能力,推动了xx人工智能研究的规模化发展。
局限性
然而,真实世界数据集的采集成本高、后勤难度大,且常局限于受控实验室环境,场景多样性有限;仿真数据集虽具备可扩展性和安全性,但仍难以完全捕捉真实世界交互的复杂性、噪声和不可预测性。此外,"成功率""轨迹偏差"等基准测试指标,可能无法充分反映模型在语言接地、长序列推理或非结构化环境安全部署等方面的精细能力。要解决这些局限性,不仅需要扩大数据集的多样性和真实感,还需设计更丰富的评估协议,以更好地匹配真实世界自主系统的需求。
五、仿真器
机器人仿真器已成为在多样化交互环境中开发和评估智能机器人系统的必备工具。这类平台通常整合物理引擎、传感器模型(如RGB-D、IMU、激光雷达)和任务逻辑,支持导航、操纵、多模态指令遵循等多种任务。最先进的仿真器可提供具备照片级真实感、物理一致性的可扩展环境,用于通过强化学习、模仿学习或大规模预训练模型训练xx智能体。通过提供安全、可控且可复现的环境,xx仿真器加速了通用机器人智能的发展,同时大幅降低了真实世界实验相关的成本和风险。
THOR是一款仿真器,拥有接近照片级真实感的3D室内场景,人工智能智能体可在其中导航环境、与物体交互以完成任务。它支持模仿学习、强化学习、操纵规划、视觉问答、无监督表征学习、目标检测和语义分割等多个研究领域。与之不同,部分仿真器基于真实空间虚拟化构建(而非人工设计环境),涵盖数千座全尺寸建筑,其中的xx智能体需遵循真实的物理和空间约束。
Habitat及其升级版本Habitat 2.0进一步扩展了这一范式,提供可扩展的仿真平台,用于在具备物理交互能力的复杂3D环境中训练xx智能体。ALFRED推出了一个包含长序列、组合型任务的基准测试,这些任务涉及不可逆的状态变化,旨在缩小仿真基准测试与真实世界应用之间的差距。ALFRED同时提供高层目标和低层语言指令,与现有视觉-语言数据集相比,其任务在序列长度、动作空间和语言变异性方面的复杂度显著提升。
早期结合物理与机器人任务的仿真环境,往往聚焦于狭窄场景,且仅包含小规模简化场景。与之相反,iGibson 1.0和iGibson 2.0是开源仿真平台,支持在大规模真实环境中完成多样化家居任务。它们的场景是真实住宅的复制品,物体分布和布局与物理空间高度一致,从而提升了生态有效性,并缩小了仿真与真实世界机器人学习之间的差距。
先进的仿真器不仅支持多个智能体在同一环境中交互,还能提供丰富的传感器数据和物理输出。理想的仿真器应整合通用物理引擎、灵活的机器人仿真平台和高保真渲染系统,成为机器人仿真和生成模型评估的强大工具。
MuJoCo是一款被广泛采用的开源物理引擎,专为机器人及相关领域(需精准仿真)的研究与开发设计。近年来,基于GPU的仿真引擎逐渐流行,其中最具代表性的是NVIDIA Isaac Gym------它构建于Omniverse平台之上,可在物理真实的虚拟环境中实现对人工智能驱动机器人的大规模开发、仿真和测试。Isaac Gym在学术界和工业界的应用日益广泛,助力加速新型机器人工具的开发和现有系统的优化。
自动驾驶领域也面临类似挑战:大规模真实世界数据的采集和标注成本高、耗时长,且难以采集足够数据覆盖大量罕见边缘案例。为解决这一问题,研究人员开发了包含静态道路元素(如交叉路口、交通信号灯、建筑物)和动态交通参与者(如车辆、行人)的仿真器。CARLA和LGSVL利用游戏引擎渲染真实驾驶场景,支持灵活的传感器配置,并生成适用于驾驶策略训练与评估的信号。这些平台已成为推动自动驾驶研究的关键工具,可提供可控、可复现且经济高效的测试环境。
六、机器人硬件
机器人的物理结构是其实现感知、移动、操纵及与环境交互的基础。其核心组件通常包括传感器、执行器、动力系统和控制单元。其中,传感器(如相机、激光雷达、惯性测量单元和触觉阵列)负责采集外部环境及机器人内部状态的关键信息;执行器(包括电机、伺服电机或液压系统)则将控制信号转化为物理动作,从而实现移动、物体操纵等任务;控制单元一般基于嵌入式处理器或微控制器,作为计算核心整合传感器输入并向执行器下达指令;动力系统通常以电池或外部能源的形式,为机器人的持续运行提供能量支持。
为满足不同应用领域(如工业自动化、服务机器人和自动驾驶)的任务特定需求,硬件设计需在性能、能效、重量和耐用性之间实现平衡。
七、挑战与未来方向
视觉-语言-动作(VLA)模型的挑战
本节总结了推进VLA模型发展过程中面临的开放性挑战与未来方向。尽管近年来VLA模型取得了显著进展,但在发展过程中也逐渐暴露出关键瓶颈。最根本的问题在于,当前的VLA系统大多基于大规模语言模型(LLM)或视觉-语言模型(VLM)的迁移学习构建而成。这些模型虽在语义理解和跨模态对齐方面表现出色,却缺乏与物理世界交互的直接训练和经验。因此,VLA系统在真实环境中常出现"理解指令但无法执行任务"的现象,这反映了一个核心矛盾:语义层面的泛化能力与物理世界中的xx能力相互脱节。如何实现从非xx知识到xx智能的转化,真正弥合语义推理与物理执行之间的鸿沟,仍是当前面临的核心挑战。具体而言,这一矛盾主要体现在以下几个方面:
机器人数据稀缺
机器人交互数据是决定VLA模型性能的关键资源,但现有数据集在规模和多样性上仍存在不足。在真实世界中,跨大量任务和环境收集大规模演示数据受到硬件成本、实验效率和安全问题的限制。现有开源数据集(如Open X-Embodiment)虽推动了机器人学习的发展,但主要集中于桌面操纵和物体抓取任务,任务与环境的多样性不足,严重限制了模型对新场景和复杂任务的泛化能力。
仿真平台(如RLBench)虽能以较低成本生成大规模轨迹数据,但受限于渲染保真度、物理引擎精度和任务建模能力。即便采用域随机化或风格迁移等技术,"虚实差距"(sim-to-real gap)依然存在,许多模型在仿真环境中表现优异,但部署到物理机器人上时却无法正常工作。因此,如何在扩大规模的同时提升机器人数据的多样性和真实性,仍是缓解模型泛化能力不足的首要挑战。
架构异质性
大多数VLA模型尝试对视觉、语言和动作进行端到端建模,但其实现过程中存在明显的架构异质性。一方面,不同研究采用的骨干网络各不相同:视觉编码器可能依赖ViT、DINOv2或SigLIP,语言骨干网络可能基于PaLM、LLaMA或Qwen,而动作头则可能采用离散令牌化、连续控制向量甚至基于扩散的生成方式。这种架构多样性阻碍了模型间的比较与复用,延缓了统一标准的形成。
另一方面,模型内部的感知、推理和控制模块往往耦合松散,导致特征空间碎片化,在不同平台或任务领域间的可移植性较差。部分模型虽在跨任务语言理解方面表现突出,但与底层控制器对接时仍需大量适配工作。这种架构异质性增加了系统集成的复杂性,严重制约了VLA模型的泛化能力和可扩展性。
实时推理约束与成本
当前VLA模型严重依赖大规模Transformer架构和自回归解码机制,这极大地限制了其在实体机器人上的推理速度和执行效率。由于每个动作令牌的生成都依赖于前一个令牌,延迟会不断累积;而动态抓取、移动导航等高频任务则需要毫秒级的响应速度。此外,高维视觉输入和庞大的参数规模带来了极高的计算与内存成本,许多最先进的VLA模型所需的GPU内存远超普通嵌入式平台的承载能力。
即便采用量化、压缩或边-云协同推理等技术,仍难以在精度、实时性和低成本之间实现平衡。这种推理约束与硬件瓶颈的叠加,使得VLA模型的部署陷入"速度过慢"与"成本过高"的两难境地。
人机交互中的伪交互
在人机交互场景中,VLA系统生成动作时往往依赖先验知识或静态训练模式,而非基于环境动态和因果推理的真实交互。当遇到陌生场景或状态变化时,模型通常依赖从数据中学习到的统计相关性,而非通过探测环境或利用传感器反馈来调整动作。这种因果推理能力的缺失,导致VLA系统虽看似能遵循指令,却无法在环境状态与动作结果之间建立真正的因果链,进而难以适应动态环境。
这种"伪交互"现象凸显了VLA模型在因果建模和反馈利用方面的不足,仍是实现xx智能的关键障碍。
评估与基准局限
VLA模型的评估体系同样存在局限。现有基准测试大多设置在实验室或高度结构化的仿真环境中,聚焦于桌面操纵或物体抓取等任务。这类任务虽能衡量模型在特定数据分布下的性能,却无法反映其在开放世界场景中的泛化能力和鲁棒性。一旦将模型部署到户外、工业或复杂家庭环境中,性能往往会大幅下降,暴露出评估体系与真实世界应用需求之间的差距。
这种狭窄的评估范围不仅阻碍了对VLA模型可行性的全面评估,也限制了模型间的横向比较。缺乏统一、权威且多样化的基准测试,正逐渐成为VLA模型向真实世界应用推进的主要瓶颈。
需要注意的是,上述五个方面虽凸显了VLA模型在数据、架构、交互和评估方面的关键不足,但并未涵盖该领域面临的所有挑战。从更长远的角度来看,VLA系统能否真正实现可控性、可信性和安全性,仍是一个核心问题。换言之,VLA的未来发展不仅需要解决性能和泛化问题,还需应对智能体安全部署的深层挑战。这一转变意味着研究人员必须超越单纯的模型优化,推动整个领域的范式革新,以应对长期挑战。
视觉-语言-动作(VLA)模型的机遇
尽管面临严峻挑战,VLA模型的未来仍充满机遇。作为连接语言、感知与动作的关键桥梁,VLA有望突破语义-物理鸿沟,成为实现xx智能的核心路径。克服当前瓶颈不仅可能重塑机器人研究的范式,还能使VLA模型处于真实世界部署的前沿位置。
世界建模与跨模态统一
目前,VLA系统中的语言、视觉和动作仍处于松散耦合状态,这使得模型局限于"指令生成",而非对世界的整体理解。若能实现真正的跨模态统一,VLA模型将能够在单一令牌流中联合建模环境、推理过程和交互行为。这种统一结构将使VLA进化为"原型世界模型",让机器人能够完成从语义理解到物理执行的闭环。这不仅是一项技术突破,更将是迈向通用人工智能的关键一步。
因果推理与真实交互突破
现有大多数VLA模型依赖静态数据分布和表面相关性,缺乏基于因果规律的交互能力。它们通过从先验模式中推测来"仿真交互",而非通过探测环境并利用反馈更新策略。未来,若VLA模型能融入因果建模与交互推理能力,机器人将学会主动探测、验证和调整策略,实现与动态环境的真实"对话"。这一突破将克服"伪交互"问题,标志着智能体从数据驱动智能向深度交互智能的转变。
虚实融合与大规模数据生成
数据稀缺虽是当前的关键局限,但也孕育着巨大机遇。若能通过高保真仿真、合成数据生成和多机器人数据共享,构建虚实融合的数据生态系统,将有可能建立包含数万亿条跨任务轨迹的数据集。正如GPT模型借助互联网规模的语料库实现语言智能的飞跃,此类数据生态系统也可能推动xx智能的跨越式发展,使VLA模型能够在开放世界场景中稳定运行。
社会嵌入与可信生态
VLA模型的终极价值不仅体现在技术能力上,更在于其社会融入度。随着VLA模型进入公共和家庭空间,安全性、可信性和伦理一致性将决定其能否被广泛接受。建立风险评估、可解释性和问责制的标准化框架,将使VLA模型从实验室成果转变为可信的合作伙伴。一旦实现社会嵌入,VLA有望成为下一代人机交互界面,重塑医疗、工业、教育和服务等多个领域。这种社会嵌入不仅是技术落地的里程碑,更是前沿研究转化为真实世界变革力量的重要机遇。
八、结论
近年来,视觉-语言-动作(VLA)模型的研究进展显著,将视觉语言模型的泛化能力扩展到机器人应用领域,包括xx智能、自动驾驶和各类操纵任务。本综述通过分析VLA方法的动机、方法论和应用,系统梳理了该领域的发展脉络;同时提供了统一的架构分类体系,并分析了超过300篇相关文献及支持材料。
首先,本综述根据自回归模型、扩散模型、强化学习、混合结构和效率优化技术,对VLA架构的创新成果进行了分类;随后,探讨了支持VLA模型训练与评估的数据集、基准测试和仿真平台;基于上述全面综述,进一步分析了现有方法的优势与不足,并指出了未来研究的潜在方向。
这些见解共同构成了一份综合参考资料和前瞻性路线图,可为开发可信、持续演进的VLA模型提供指导,进而推动机器人系统中通用人工智能的发展。
参考
1\]Pure Vision Language Action (VLA) Models: A Comprehensive Survey
....
##### #全新多IMU快速外参校准方法
两台IMU能与九台IMU相媲美?万事俱备,只欠"外参"
IMU可以与外部感知传感器(如LiDAR和摄像头)协作,这些传感器提供全局观测。由于微机电系统(MEMS)IMU体积小、成本低,SLAM系统可以增加更多的惯性传感器,以便进行故障检测或测量融合。
大多数视觉-IMU融合系统假设每个惯性传感器与系统主体之间的相对位姿是完全标定的。然而仿真实验表明,如果系统不能保证精确的外参,单一IMU能够提供更好的预积分精度。
目前,现有的MIMU外参标定方法需要获得精确的系统轨迹,这通常通过昂贵的转台或外部传感器(例如Kalibr)来估计。尽管这些算法在特定环境中表现良好,但受环境限制或额外设备限制。同时,在线估计传感器噪声仍然是一个挑战,限制了标定精度和计算效率。
本文介绍一种新的方法\[1\],通过建立两个非线性最小二乘问题分别估计惯性传感器之间的相对平移和姿态:
基于原始的陀螺仪测量值优化相对姿态。
受虚拟IMU(VIMU)方法\[2\]的启发,生成噪声较小的角加速度测量值,以提高相对位置标定性能。
值得注意的是,该方法不依赖于真实轨迹或外部传感器,同时将惯性噪声的在线估计视为精度的损害,从而避免过拟合问题。
主要贡献包括:
1. 提出了一种快速的MIMU外参标定方法。我们在数据集、自制传感器板以及集成RealSense T265和D435i的传感器设备上验证了该方法的优越性,与其他方法相比,具有更高的精度、计算效率和鲁棒性。
2. 仿真实验表明,仅融合两台IMU并使用我们的方法进行运动预测,其效果可与融合九台IMU媲美。
3. 给出了VIMU方法的一般形式,并提出了其在流形上的传播。实验结果表明,集成该标定方法和流形上的VIMU传播的VIO系统定位精度更高。
多IMU外参快速标定状态变量与坐标系
假设使用两个IMU,分别记为A和B,它们在世界坐标系{W}中移动。IMU的坐标系分别记为{I}、{A}、{B},以及虚拟IMU的坐标系{V}。常见的MEMS IMU输出三轴角速度 和三轴线性加速度 ,其中参考坐标系为{I}。
符号 、、 分别表示传感器测量值的实际值、估计值和真实值。符号
旋转矩阵 表示从{V}到{A}的旋转。同样地,平移矩阵
IMU测量模型
给定IMU的测量模型:其中:
* 和 是随机游走模型的偏置:
* 和 是高斯噪声:
*
问题描述
给出惯性坐标系下两个IMU的角速度和特定力的关系:
假设在时间 内同步了惯性测量值,待估计的变量是 和
标定解决方案
为了避免欧拉角的万向节锁问题和旋转矩阵的计算复杂性,选择四元数
定义系统状态:
在优化之前,假设已经知道惯性传感器的内参。不评估陀螺仪的失准,因为它已被纳入相对旋转中。
提出的非线性最小二乘优化问题分为两个步骤:相对姿态和相对平移估计。一方面,姿态标定问题独立于线性加速度。另一方面,由于优化了的姿态参数和角速度,平移标定的问题比使用原始惯性测量值时噪声更少。此外,整体计算时间也有所减少。
首先,定义与姿态相关的非线性最小二乘问题:其中, 是与角速度测量相关的残差:相应的协方差矩阵为:
其次,定义与平移相关的非线性最小二乘问题:其中, 是与惯性测量相关的残差:
由于IMU无法测量角加速度 ,我们可以通过虚拟角速度模型的时间导数来估计它:
相应的协方差矩阵为:
将展示虚拟陀螺仪噪声的协方差小于原始值 和 ,偏置协方差也较小。通过将姿态和平移的估计过程分离,该方法节省了时间,并且需要较短的数据采集时间。IMU噪声没有被估计,因为在没有真实轨迹的情况下,无法对噪声施加适当的限制。因此,本方法可以避免过拟合问题。
虚拟IMU方法在流形上的应用
给出虚拟IMU(VIMU)生成方法的一般形式,并完成了提出的方法在相对平移标定中优于使用原始陀螺仪测量值的证明。为了将VIMU与优化的外参集成到视觉-惯性里程计(VIO)系统中,推导了VIMU在流形上的传播。
虚拟IMU一般模型
在融合两个IMU的情况下,建议选择两个传感器之间的中间位置作为VIMU的参考坐标系,而不是任意选择一个姿态。如果VIMU距离B远多于A,或相反,左零空间矩阵 可能是奇异的。以下是两个IMU的VIMU模型一般形式:
其中,矩阵 和 定义在文献【6】中。
虚拟陀螺仪测量的偏置和噪声为:
因此,对等式13的两边取期望,虚拟陀螺仪测量的噪声协方差 和偏置协方差
这证明了虚拟角加速度测量误差更小。因此,提出的方法在相对平移标定中的性能应优于使用原始陀螺仪测量值。同样的推导可适用于其他项。
虚拟IMU在流形上的传播
提出了基于等式13的VIMU在流形上的传播。VIMU的系统状态由姿态、位置、速度和偏置组成:
其中,位姿 属于SE(3)群,
假设VIMU与摄像头同步,并在离散时间 提供测量值。在时间 和
推导了用于更新状态估计的传播方程,基于预积分噪声向量 和VIMU噪声向量 :
从线性化方程(20),我们可以推导出相应的协方差矩阵:
其中, 是VIMU噪声的协方差矩阵。初始条件为 ,而
详细形式如下:
其中,矩阵 和
右雅可比矩阵
尽管在虚拟惯性测量生成和流形传播中引入了一些新项,但增加的计算时间相对较短。一些项可以离线完成,如矩阵 和 ,而其他项(例如 和 )的计算复杂度为 ,其中
实验效果
总结一下
本文介绍了一种多IMU的快速外参标定方法。首先估计相对姿态,然后通过引入VIMU方法提高相对平移精度。验证表明,该方法具有快速、精确、鲁棒的特点,并且不依赖于真实轨迹、外部传感器以及在线噪声估计。给出了VIMU方法的通用形式,并提出了其在流形上的传播。实验结果表明,标定方法能够提高VIO系统的定位精度。
.....
##### #RoboTwin
结合现实与合成数据的双臂机器人基准
在机器人技术不断演进的当下,复杂自主系统的开发是行业追求的目标之一。**双臂协调能力使得机器人能够像人类一样,利用双臂完成更为复杂和精细的操作。** 例如在装配任务中,双臂机器人可以同时握住不同的零件,并将它们精确地组装在一起,这是单臂机器人难以实现的。先进工具使用能力则进一步拓展了机器人的功能。机器人可以根据任务需求,选择并使用合适的工具,如使用螺丝刀拧紧螺丝、使用钳子夹取物品等。这种能力与双臂协调相结合,能够让机器人在面对各种复杂任务时,具备更强的适应性和操作能力,从而更好地实现自主系统的复杂功能。**然而,这些领域的进步受到缺乏专门的、高质量的训练数据的严重阻碍。**这些活动往往需要定制的解决方案,难以标准化,并且在传统数据集中通常没有很好的体现。
**,时长02:01
图注:Astribot S1机器人双臂协同操作展示。视频来源:https://www.bilibili.com/video/BV1yJ4m1H7V2/?vd_source=60762b2741beebb14f0eaac7c46cc65f
2024 ECCV 中,xx智能的协同智能WORKSHOP (WORKSHOP ON COOPERATIVE INTELLGENCE FOR EMBODIED AI) 最佳论文旨在解决这一关键差距,引入了 **"RoboTwin"** 。它是一个综合基准,包括现实世界的遥控操作数据和由数字孪生生成的相应合成数据,**专门用于涉及双臂机器人工具使用和人机交互的场景。**
* 首先使用 AgileX Robotics 开发的开源 COBOT Magic 平台收集数据,该平台配备了四个 AgileX Arms 和四个 Intel Realsense D - 435 RGBD 摄像头,安装在坚固的 Tracer 底盘上,数据涵盖工具使用和人机交互等各种典型任务。
* 从现实世界数据收集到虚拟复制的过程中,创建数字孪生面临挑战。**传统方法依赖昂贵的高保真传感器,本文开发了一种使用人工智能生成内容(AIGC),从单个 2D RGB 图像构建 3D 模型的经济有效的新方法。**该方法能降低成本,提供逼真的视觉效果并支持物理模拟,包括将 2D 图像转换为具有复杂几何形状等的 3D 模型,还通过定义功能坐标轴来增强模型以实现抓取姿态的自动计算。
* 为增强数据集的实用性和相关性,**建立了一个利用大型语言模型(LLMs)自动生成专家级训练数据**。该方法丰富了数据集,还整合了 LLMs 的多功能性,如利用 GPT4 - V 自动生成任务特定的姿态序列以提高任务执行精度,使用 GPT4 生成的脚本来激活轨迹规划工具以简化编程和加快机器人系统部署。
> 论文链接:https://arxiv.org/pdf/2409.02920
>
> 项目主页:https://robotwin-benchmark.github.io/early-version/#:\~:text=This%20paper%20introduces%20RoboTwin,%20a%20novel%20benchmark%20dataset%20combining%20real-world
**那么,文章是如何创建数字孪生** (将物理实体或系统的各种特性和行为以数字化的形式进行精确模拟和映射)**的呢?**文章基于 Deemos's Rodin 平台,从单个 2D RGB 图像构建 3D 模型,过程如下:首先将单张 2D 图像转换为包含详细几何形状、表面法线、线框和纹理的 3D 模型。这些特征增强了视觉真实感,并确保与物理模拟的引擎兼容。然后为模型内物体的功能部件指定特定坐标轴。例如对于锤子,一个轴与锤头(功能部分)对齐,另一个轴指示接近方向。抓取姿态沿着指定的接近方向轴垂直于功能部分的表面法线计算,这有助于机器人在操作和使用工具时能以最少的人工干预正确且高效地进行。
为了生成专家数据,首先借助 GPT4 - V 的推理能力编写代码,用于计算关键姿态和物体功能坐标轴之间的关系。GPT4 - V 会分析任务要求并生成符合要求的一系列姿态,确保任务的精确执行。然后通过 GPT4 生成的代码来调用轨迹规划工具,这些代码是基于计算出的姿态生成的。这种自动化操作大幅减少了手动编程所需的时间和人力,有助于机器人系统在不同应用中的快速部署,同时也为机器人学习提供了一种可扩展的高质量数据生成方法。
为了进一步推动该领域的研究和发展,如图 4 所示,**文章引入了一个综合基准,专门用于评估各种场景下的双臂机器人。**这个基准包含了一系列多样的任务,每个任务都呈现出独特的挑战,这些挑战对于评估模拟环境中机器人手臂的灵巧性、协调性和操作效率至关重要,任务范围从简单的物体操作到需要双臂同步运动的复杂协调动作。个基准旨在弥合理论机器人控制模型与其实际应用之间的差距,确保机器人系统能够在动态的现实世界环境中可靠地运行。
**为了获取真实世界的数据**,文章采用了AgileX Robotics公司的开源Cobot Magic 7平台,该平台配备了4个AgileX arm和4个英特尔Realsense D-435 RGBD摄像头,并建立在Tracer底盘上。这些摄像头一个在支架的高处,以扩大视野,两个在机器人手臂的手腕上,一个在支架的低处,这是可选的。前、左、右摄像头以30Hz的频率同时捕获数据,如图5所示。
文章的数据集任务设计有两个主要亮点:关注人机交互和工具使用。文章设计了17个任务,其中9个任务强调工具使用,5个任务涉及人际互动,6个任务是双臂,每个任务收集了30个轨迹。
文章的实验旨在验证:a) COBOT Magic平台设置的合理性,b)自动生成的专家数据的有效性。文章使用3D Diffusion Policy (DP3)在基准内测试了6个任务,每个任务分别使用从10组、20组和50组专家数据中训练的策略进行测试,以获得成功率。**实验结果如表1所示,所有任务的成功率皆随着演示次数的提升而大幅增加。** "Block Handover"任务取得了最显著的改进,在50次演示中达到98%的成功率,远高于10次的50%。这些结果表明,专家演示的数量与任务成功之间存在很强的相关性,突出了自动生成的专家数据在提高COBOT Magic平台上的任务性能方面的有效性。**这些数据进一步强调了为复杂任务制定稳健策略时,充分的训练示例的重要性。**
总结
* 这篇文章引入了 RoboTwin,它是一个整合了现实世界和合成数据的基准,用于评估双臂机器人,解决了机器人领域专业训练数据严重短缺的问题。
* 数据集是使用 AgileX Robotics 平台开发的,并通过由 Deemos's Rodin 平台提供支持的生成式数字孪生进行了增强。文章建立了一个便捷的从现实到模拟的管道,只需一张现实世界的 RGB 图像就能生成目标物体和相应场景的 3D 模型。该数据集有效加速了机器人系统的训练,能够使机器人在不同任务中的性能得到提升。
* 研究结果展示了这种混合数据方法在提高机器人灵巧性和效率方面的潜力,它是一个可扩展的工具,可能会给机器人研究和应用带来革命性的变化。
......
##### #大模型/Sora/世界模型之间是什么关系,对自动驾驶的意义是什么?
什么是大模型
**人工智能大模型(Artificial Intelligence Large Model,简称AI大模型)是指具有庞大的参数规模和复杂程度的机器学习模型。通常指的是参数量非常大、数据量非常大的深度学习模型。**
大模型通常由数百万到数十亿的参数组成,需要大量的数据和计算资源进行训练和推理。
由于其巨大的规模,大模型具有非常强大的表示能力和泛化能力,可以在各种任务中表现出色,如语音识别、自然语言处理、计算机视觉等。
1.1 大模型的优点
**1)强大的表示能力**
大模型可以学习非常复杂的模式和特征,从而能够处理各种复杂的任务。
**2)泛化能力强**
由于大模型在大量数据上进行训练,它们可以捕捉到普遍存在的模式,因此在处理新数据时具有较好的泛化能力。
**3)多任务学习**
一些大模型可以同时处理多个任务,例如图像分类和目标检测,或者自然语言处理中的文本分类和情感分析。
**4)预训练和迁移学习**
大模型可以在大规模数据上进行预训练,然后在其他数据集上进行微调,以适应特定的任务。这种迁移学习的方法可以大大减少在新任务上的训练时间和数据需求。
通过在大量的标注和未标注的数据上进行预训练,大模型可以从中捕获通用的知识和特征,并将其存储在参数中。
然后通过对特定任务进行微调,大模型可以将预训练的知识迁移到下游任务中,极大地提高了模型的性能和泛化能力。
1.2 大模型的应用
大模型的典型代表有GPT-4、盘古、Switch Transformer等,它们的参数量都达到了千亿甚至万亿的规模。
除此之外,还有代码大模型、视觉大模型、多模态大模型等。
**1)语言模型**
语言模型是一种自然语言处理领域的深度学习模型,通过语言模型的应用,可以实现机器翻译、文本摘要、问答系统、情感分析等功能。
例如,谷歌的BERT模型可以用于提高搜索引擎的搜索质量和广告质量;OpenAI的GPT系列模型可以用于自动生成文章、对话和摘要等。
**2)图像识别模型**
图像识别模型是一种计算机视觉领域的深度学习模型,可以用于图像分类、目标检测、人脸识别等任务。
例如,在医疗领域,图像识别模型可以用于诊断疾病和辅助手术;在安防领域,图像识别模型可以用于监控和人脸识别等。
**3)语音识别模型**
语音识别模型是一种语音信号处理领域的深度学习模型,可以将语音转换成文本,并支持语音到文本的转换、语音搜索、语音控制等功能。
例如,谷歌助手、苹果的Siri、亚马逊的Alexa等智能助手都使用了语音识别技术。
**4)推荐模型**
推荐模型是一种个性化推荐领域的深度学习模型,可以根据用户的历史行为和偏好,推荐相关的内容和服务。
例如,在电商领域,推荐模型可以根据用户的购物历史和浏览行为,推荐相关的商品和优惠券;在新闻领域,推荐模型可以根据用户的阅读历史和兴趣,推荐相关的新闻和文章。
**5)强化学习模型**
强化学习模型是一种通过试错来学习行为的深度学习模型,可以用于游戏、自动驾驶等领域。
例如,DeepMind的AlphaGo可以用于玩围棋游戏;OpenAI的Dota2 AI可以用于玩Dota2游戏。
什么是world model
与大模型相比,世界模型是一个更高级别的概念,它涉及到xx智能和现实世界的感知、理解和交互。**世界模型试图通过对周围环境进行建模,使人工智能系统能够像人类一样理解和预测环境,从而做出相应的行动。**
World Model其本质是对视频中的丰富语义以及背后的物理规律进行学习,从而对物理世界的演化产生深刻理解。
举个例子,在人类的理解中,能够评估出一杯水的重量。当我们拿起一杯水时,大脑其实已经"预测"了应该用多大的力。于是,杯子被顺利拿起。但如果杯子是不透明有盖的而碰巧没有水呢?如果延续杯子有水的理解,我们就会用过大的力去拿杯子,此时发现很轻,我们立刻感觉到不对。对世界的理解里就会加上这么一条:杯子有可能是空的。于是,下次再"预测",就会对不同内容的杯子使用不同的力。
"不断理解,不断预测",这种理解世界的方式,是人类理解世界的方式。这种思维模式就叫做:世界模型。
人经历的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界。这就是人类与世界交互的方式:世界模型。
什么是Sora
OpenAI官方信息从未表示Sora是world model,而是强调它是world simulator。
Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为"世界模拟器"),于2024年2月15日(美国当地时间)正式对外发布。
**Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。**
Sora有别于其他AI视频模型的优势在于,既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
在原理上,Sora主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取,将视图信息分解成更小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便Sora在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频内容。
3.1 Sora的应用
* 视频创作:用户可以根据文本生成高质量视频;
* 扩展视频:可以在给定的视频或图片基础上,继续向前或向后延申视频;
* Video-to-video editing:例如将SDEdit 应用于Sora,可以很容易改变原视频的风格;
* 视频连结/过渡/转场:可以将两个视频巧妙地融合到一起,使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;
* 文生图:图像可以视为单帧的视频,故Sora也能实现文生图。
3.2 目前Sora存在的缺点
尽管Sora的功能十分的强大,但其在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面OpenAI Sora都存在一定的问题。
**(1)物理交互的不准确模拟:**
Sora模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例,或者模型无法充分学习和理解这些复杂物理过程的底层原理。
**(2)对象状态变化的不正确:**
在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化。这表明模型可能在理解和预测对象状态变化的动态过程方面存在局限。
**(3)长时视频样本的不连贯性:**
在生成长时间的视频样本时,Sora可能会产生不连贯的情节或细节,这可能是由于模型难以在长时间跨度内保持上下文的一致性。
**(4)对象的突然出现:**
视频中可能会出现对象的无缘无故出现,这表明模型在空间和时间连续性的理解上还有待提高。
world model是用Sora能准确生成视频一个很重要的核心,比如人在苹果上咬了一口,并不总是能"咬就会有痕",sora"有时"也会出错。但通过训练,sora会越来越准确。
Sora的技术文档里有一句话:
Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
翻译过来就是:
我们的结果表明,**大规模视频生成模型是一条很有希望构建物理世界通用模拟器的道路。**
OpenAI最终想做的,其实不是一个"文生视频"的工具,而是一个通用的"物理世界模拟器"。
大模型 Sora和世界模型对自动驾驶的意义
基于World Model所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。
类比GPT为所有NLP问题提供了一个通用解,特斯拉、Wayve等公司不约而同地在2023年推出World Model,很大程度上是受到了GPT的启发。对于自动驾驶来说,World Model 是一个无需标注、自监督的预训练模型。可生成自动驾驶相关的连续帧视频场景。
目前,World Model或仍处于GPT-1的阶段,但考虑到目前行业整体对"大模型"潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,World Model从0到1的爆发或较ChatGPT更快(OpenAI从GPT-1至GPT-3.5共历经4年)。
但考虑到更标准化的解决方案和更巨大的资金投入(资金需求或是这一代BEV+Transformer方案的数倍),行业内有望出现少数几家强大的World Model基础模型层平台方,以SaaS或API的方式为主机厂/运营方提供自动驾驶能力,行业格局和合作模式或将发生较大变化。
中短期来看,World Model或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。
长期来看,World Model有潜力成为自动驾驶乃至xx智能领域的基础模型。
......
##### #DINO-WM
提升56%!纽约大学:预训练世界模型实现零样本规划
给定控制动作预测未来结果的能力是物理推理的基础。然而,这类预测模型(通常称为世界模型)的学习已被证明具有挑战性,并且通常是为具有在线策略学习的特定任务解决方案而开发的。我们认为,世界模型的真正潜力在于它们仅使用被动数据就能在不同问题上进行推理和规划的能力。具体来说,要求世界模型具备以下三个特性:1)能够在离线的、预先收集的轨迹上进行训练;2)支持测试时的行为优化;3)促进与任务无关的推理。为了实现这一目标,我们提出了DINO世界模型(DINO-WM),这是一种无需重建视觉世界即可建模视觉动力学的新方法。DINO-WM利用DINOv2预训练的空间block特征,使其能够通过预测未来的块特征来从离线的行为轨迹中学习。这种设计使DINO-WM能够通过动作序列优化来实现观测目标,通过将期望的目标块特征作为预测目标,来促进与任务无关的行为规划。在迷宫导航、桌面推动和粒子操控等多个领域对DINO-WM进行了评估。实验表明,DINO-WM能够在测试时生成零样本行为解决方案,而无需依赖专家演示、奖励建模或预先学习的逆模型。值得注意的是,与先前的最先进工作相比,DINO-WM展现出强大的泛化能力,能够适应各种任务族,如任意配置的迷宫、具有不同形状物体的推动操控以及多粒子场景。
**一些介绍**
近年来,机器人技术和xx人工智能(embodied AI)取得了巨大进展。模仿学习和强化学习的进步使智能体能够在各种任务中学习复杂行为。尽管取得了这些进展,但泛化仍然是一个主要挑战。现有方法主要依赖于一旦训练完成,在部署过程中以前馈方式运行的策略------即将观测结果映射到动作上,而不进行任何进一步的优化或推理。在这一框架下,要实现成功的泛化,本质上要求智能体在训练完成后具备解决所有可能任务和场景的能力,而这只有在智能体在训练期间见过类似场景的情况下才可能实现。然而,提前学习所有潜在任务和环境的解决方案既不可行也不高效。
与在训练期间学习所有可能任务的解决方案不同,另一种方法是使用训练数据拟合一个动力学模型,并在运行时优化特定任务的行为。这些动力学模型也被称为世界模型,在机器人技术和控制领域有着悠久的历史。最近,一些研究表明,可以使用原始观测数据训练世界模型。这使得能够灵活地使用基于模型的优化来获得策略,因为它避免了显式状态估计的需求。尽管如此,在使用世界模型解决通用任务方面仍然存在重大挑战。
为了理解世界建模中的挑战,让我们考虑学习世界模型的两种主要范式:在线和离线。在在线设置中,通常需要访问环境,以便可以持续收集数据来改进世界模型,进而改进策略以及后续的数据收集。然而,在线世界模型仅在所优化策略覆盖的范围内准确。因此,虽然它可用于训练强大的特定任务策略,但即使在同一环境中,对于每个新任务都需要重新训练。相比之下,在离线设置中,世界模型是在环境中收集的轨迹的离线数据集上进行训练的,这消除了其对任务特定性的依赖,前提是数据集具有足够的覆盖范围。然而,当需要解决任务时,该领域的方法需要强大的辅助信息来克服任务特定域缺乏密集覆盖的问题。这种辅助信息可以是专家演示,结构化关键点,访问预训练的逆模型或密集奖励函数,所有这些都会降低离线世界模型的通用性。构建更好离线世界模型的核心问题是,是否存在不损害其通用性的替代辅助信息?
我们提出了DINO-WM,这是一种新的且简单的方法,用于从轨迹的离线数据集中构建与任务无关的世界模型。DINO-WM在世界紧凑嵌入(而非原始观测本身)上建模世界的动力学。对于嵌入,我们使用DINOv2模型的预训练patch特征,它提供了空间和以对象为中心的表示先验。我们推测,这种预训练表示能够实现稳健且一致的世界建模,从而降低了对任务特定数据覆盖的必要性。给定这些视觉嵌入和动作,DINO-WM使用ViT架构来预测未来嵌入。一旦该模型训练完成,规划解决任务就构建为视觉目标到达,即根据当前观测到达未来期望的目标。由于DINO-WM的预测质量很高,可以在测试时仅使用带有推理时间优化的模型预测控制来达到期望目标,而无需任何额外信息。
DINO-WM在涵盖迷宫导航、滑动操作和粒子操作任务的四个环境套件上进行了实验评估。我们的实验得出了以下发现:
* DINO-WM能够生成高质量的未来世界模型,这可以通过训练后的解码器改进的视觉重建来衡量。在最困难的任务的LPIPS指标上,这比先前最先进的工作提高了56%。
* 利用DINO-WM训练的潜在世界模型,在最困难的任务上实现了任意目标的高达成率,平均比先前的工作提高了45%。
* DINO-WM可以在任务家族内的不同环境变体(例如,导航中的不同迷宫布局或操作中的不同物体形状)上进行训练,并且与先前的工作相比,实现了更高的成功率。
DINO-WM的代码和模型将开源,以确保可重复性,代码:https://dino-wm.github.io。****
**相关工作一览**
在构建世界模型、优化它们以及使用紧凑的视觉表示方面,基于多项工作进行了拓展。为了简洁起见,只讨论与DINO-WM最相关的工作。
基于模型的学习:从动力学模型中学习有着丰富的文献,跨越控制、规划和机器人学等领域。近期研究表明,对动力学进行建模并预测未来状态可以显著增强xxagent在各种应用中的基于视觉的学习,包括在线强化学习,探索,规划,以及模仿学习。其中一些方法最初侧重于状态空间动力学,并且此后已扩展到处理基于图像的输入,这也是本工作的重点。这些世界模型可以在像素空间或潜在表示空间中预测未来状态。然而,在像素空间中进行预测由于需要图像重建和使用扩散模型的开销,计算成本高昂。另一方面,潜在空间预测通常与重建图像的目标相关联,这引发了关于所学特征是否包含足够任务信息的担忧。此外,许多这些模型还包含奖励预测,或将奖励预测作为辅助目标来学习潜在表示,这本质上使世界模型变得与任务相关。在本工作中,我们旨在将任务相关信息与潜在空间预测解耦,努力开发一个灵活且任务无关的世界模型,能够在不同场景中进行泛化。
生成模型作为世界模型:随着近期大规模基础模型的兴起,在自动驾驶领域、控制领域以及通用视频生成领域,已经出现了构建以智能体动作为条件的大规模视频生成世界模型的尝试。这些模型旨在根据文本或高级动作序列生成视频预测。虽然这些模型在数据增强等下游任务中表现出了实用性,但当需要实现精确的视觉指示性目标时,它们对语言条件的依赖限制了其应用。此外,使用扩散模型进行视频生成会使计算成本高昂,进一步限制了它们在模型预测控制(MPC)等测试时优化技术中的应用。本工作旨在构建潜在空间中的世界模型,而不是原始像素空间中的模型,从而实现更精确的规划和控制。
预训练视觉表示:在视觉表示学习领域取得了显著进展,可以轻松地使用捕获空间和语义信息的紧凑特征来完成下游任务。预训练模型,如针对图像的ImageNet预训练ResNet、I-JEPA和DINO,以及针对视频的V-JEPA,还有针对机器人的R3M和MVP,因为它们包含丰富的空间和语义信息,能够快速适应下游任务。虽然其中许多模型使用单个全局特征来表示图像,但视觉Transformer(ViT)的引入使得可以使用预训练的补丁特征,如DINO所示。DINO采用自蒸馏损失,使模型能够有效地学习表示,捕捉语义布局并改善图像内的空间理解。本工作我们利用DINOv2的patch嵌入来训练我们的世界模型,并证明了它作为一种通用编码器,能够处理多个精确任务。****
**DINO世界模型**
概述与问题定义:工作遵循基于视觉的控制任务框架,该框架将环境建模为部分可观察的马尔可夫决策过程(POMDP)。POMDP由元组(O, A, p)定义,其中O表示观测空间,A表示动作空间。环境的动态由转移分布建模,该分布基于过去的动作和观测来预测未来的观测。
本工作的目标是从预先收集的离线数据集中学习任务无关的世界模型,并在测试时间使用这些世界模型进行视觉推理和控制。在测试时间,系统从任意环境状态开始,并被提供一张RGB图像形式的目标观测,这与先前的工作保持一致。系统被要求执行一系列动作,以便达到目标状态。这种方法与在线强化学习(RL)中使用的世界模型不同,后者的目标是优化手头固定任务集的奖励,也与通过文本提示指定目标的文本条件世界模型不同。
1)基于DINO的世界模型(DINO-WM)
在潜在空间中建模环境的动态。更具体地说,在每个时间步t,我们的世界模型包含以下组件:
其中,观测模型将图像观测编码为潜在状态,而转移模型则接收长度为H的过去潜在状态的历史记录。解码器模型接收一个潜在状态,并重构图像观测。我们用θ来表示这些模型的参数。请注意,解码器是完全可选的,因为解码器的训练目标与训练世界模型的其他部分无关。这消除了在训练和测试期间都需要重构图像的需求,与Hafner等人(2024)和Micheli等人(2023)中将观测模型的训练和解码器的训练耦合在一起相比,这降低了计算成本。
DINO-WM仅对环境中从离线轨迹数据中可获得的信息进行建模,这与最近的在线RL世界模型不同,后者还需要任务相关信息,如奖励Hansen等人、Hafner等人,折扣因子Hafner等人、Robine等人,以及终止条件Hafner等人(2024)、Micheli等人(2023)。
**观测模型**
我们的目标是学习一个适用于多种环境和现实世界的通用世界模型,我们认为观测模型应该,1)与任务和环境无关,2)包含丰富的空间信息,这对于导航和操作任务至关重要。与以往总是为当前任务学习观测模型的工作不同,我们认为,面对新环境时,世界模型不可能总是从零开始学习观测模型,因为感知是一个可以从大量互联网数据中学习的通用任务。因此,我们选择现成的预训练DINOv2模型作为我们世界模型的观测模型,因为它在需要深刻理解空间的目标检测、语义分割和深度估计任务中表现出色。在训练和测试期间,观测模型都保持不变。在每个时间步t,它将图像编码为block嵌入,其中N表示块的数量,E表示嵌入维度。该过程如图2所示。
**转移模型**
我们为转移模型采用了ViT架构,因为它是处理block特征的自然选择。然而,需要对架构进行一些修改,以便对本体感受和控制器动作进行额外的条件控制。
我们的转移模型接收过去潜在状态和动作的历史记录,其中H是表示模型上下文长度的超参数,并预测下一个时间步的潜在状态。为了正确捕获时间依赖性,即时间t处的世界状态应仅依赖于之前的观测和动作,我们在ViT模型中实现了因果注意力机制,使模型能够在帧级别上自回归地预测潜在状态。对于潜在状态的每个block向量,它关注于。这与过去的工作IRIS不同,后者同样将每个观测表示为向量序列,但在标记级别上自回归地预测,同时关注于以及$\[z\^i_t\]\^\