我自己的原文哦~https://blog.51cto.com/whaosoft/13383340
#世界模型如何推演未来的千万种可能
驾驶世界模型(DWM),专注于预测驾驶过程中的场景演变,已经成为追求自动驾驶的一种有前景的范式。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境互动。在这篇综述中,我们提供了DWM最新进展的全面概述。我们根据预测场景的模式对现有方法进行分类,并总结了它们对自动驾驶的具体贡献。此外,还回顾了高影响力的数据库和针对DWM研究范围内不同任务的各种指标。最后,我们讨论了当前研究的潜在局限性并提出了未来方向。本综述为DWM的发展和应用提供了宝贵的见解,促进了其在自动驾驶中的更广泛应用。
简介
世界模型旨在基于过去的观察和动作预测未来的观察结果。在自动驾驶中,大视野和现实世界驾驶场景的高度动态特性带来了独特的挑战。然而,驾驶世界模型(DWM)通过促进准确的场景演变预测,在应对复杂环境中发挥了关键作用。最近,由于其在确保安全可靠的自动驾驶方面的重要作用,DWM受到了越来越多的关注。

如图1所示,DWM通常涉及预测场景演变,即根据历史观察生成未来场景。在此基础上,大多数方法可以进一步控制场景演变以符合给定条件或输出基于观察和预测的响应。由于自动驾驶需要处理多种数据类型,DWM已经产生了预测不同模式场景的变体。一些方法利用2D图像中的语义信息,而其他方法则学习3D点云或占用率中的空间几何和精确动力学。此外,一些方法,我们系统地将其归类为无场景范式,优先考虑潜在状态或多智能体行为,而不是详细场景。
实现自动驾驶的道路将面临诸如高数据获取成本、动态环境的复杂性以及管理罕见案例等挑战。DWM可能通过改进未来状态预测的规划、用多样化的合成数据丰富训练数据集,以及通过可扩展的预训练增强下游任务,为这些问题提供实用的解决方案。这些发展突显了DWM在该领域的多功能性和有效性。
本文全面调查了相关工作。具体而言,本文的贡献可以总结如下:
- 我们全面回顾了DWM的最新进展,按预测场景的模式对方法进行分类,并概述了DWM在自动驾驶中的应用。
- 我们对当前的局限性进行了批判性分析,并概述了有前景的未来研究方向,为研究社区提供了宝贵的见解,并促进了DWM的持续发展。
我们注意到,最近出现了与DWM相关的综述,其中一些主要关注通用世界模型,而其余的未能提供DWM应用的详细分类。相比之下,本文不仅介绍了近期方法的系统分类,还提供了DWM多样化应用的全面总结,旨在理解当前进展并探索未来方向。
驾驶世界模型
驾驶世界模型(Driving World Models, DWM)所预测的场景涵盖多种模态,包括图像、点云和占据栅格(occupancy),这既带来了独特优势,也带来了挑战。最近的进展越来越侧重于利用互补的多传感器数据,以发挥各个模态的优势,同时减轻其固有局限性。此外,无场景范式(scene-free paradigms)探索在潜在空间内进行预测,或专注于对复杂的多智能体交互进行建模。表1概述了近期的方法。本节从各种预测模态的角度介绍DWM的最新进展。

2D场景演化
驾驶世界模型(DWM)利用先进的生成技术(如自回归Transformer和扩散模型)来预测真实的二维场景演化,同时确保符合物理规律。
GAIA-1率先将场景演化预测表述为下一个标记预测任务,并使用扩散解码器,系统地捕捉驾驶场景中的时空动态和高级结构。相比之下,DriveDreamer推进了用于多模态控制的条件扩散框架,并将DWM范式扩展到合成数据生成。在这些基础方法之上,后续的DWM研究主要集中在提高场景演化预测的保真度、一致性和可控性。
生成场景的保真度对于确保真实世界驾驶场景的物理合理模拟至关重要。Vista采用稳定的视频扩散技术,并引入新颖的损失函数来捕捉动态行为,同时保持结构完整性,实现高分辨率和高保真度的场景生成。此外,它通过纳入多个参考帧来确保动力学合理。
DWM预测的场景演化应准确反映三维世界,确保每个物体都有合理的三维位置和空间关系,同时整个场景表现出空间连续性。通过分解联合建模,以相邻视图为条件预测中间视图,Drive-WM显著提高了视图之间的一致性。此外,DrivePhysica引入3D框作为条件输入,以增强对空间关系的理解,加强空间一致性,并改善对遮挡结构的理解。另一方面,WoVoGen预测明确的世界体(world volumes)以指导多视图视频生成,确保世界内和传感器间的一致性。类似地,NeMo和GEM将三维预测任务纳入其框架,而BEVWorld通过整合多传感器数据输入进一步拓展了这些工作。
时间一致性在使DWM能够有效捕捉场景的演化动态方面起着关键作用。确保预测序列中帧之间的连贯过渡对于反映现实场景演化至关重要。最近的进展通过架构创新来应对这一挑战。例如,InfinityDrive引入了一种多分辨率时空建模框架,在训练过程中逐步扩大时间感受野。通过集成旨在保留长程时间依赖关系的记忆机制,这一方法得到了进一步增强。与此同时,DrivingWorld通过提出一系列技术,包括时间感知标记化、下一状态预测、随机标记丢弃和平衡注意力策略,解决了自回归方法中的时间一致性问题。这些创新共同显著提高了在动态场景理解中对时间一致性进行建模的能力。
一个合理的DWM在生成未来场景时应适应特定要求。如表1所示,控制条件大致分为两类:1)低级条件,如动作(自车信息)、轨迹(坐标或位移)和布局(物体放置),为自车运动和物体定位设定精确规范。2)高级条件,如文本(指令或描述)和目的地(车辆到达位置),不仅要求实现指定目标,还需要创建逻辑中间步骤。一些工作有效地整合了低级或高级控制条件来生成未来场景,产生合理的输出响应,如驾驶动作、未来轨迹和文本。其中,GEM平衡两种条件类型方面表现出色,生成的驾驶视频严格遵循指定轨迹,同时实现向期望位置的自然移动。相反,DriveDreamer-2利用大型语言模型从高级文本输入中导出各种低级条件,显著增强了生成图像的多样性,并提供了用户友好的生成过程。请注意,控制条件和输出响应也广泛应用于3D和无场景范式中。
总之,DWM利用生成技术合成具有时空一致性和物理合理性的逼真二维驾驶场景。这些框架有效地提高了真实感、可控性和稳定性,实现了对场景演化的可靠预测。
3D场景演进
三维数据表示本质上保留了结构一致性、详细的几何信息和精确的空间关系,使得三维场景演化预测成为驾驶世界模型(DWM)的一项重要任务。在实践中,通常使用两种主要类型的三维数据,即占据栅格和点云。
占据栅格场景演进
占据栅格提供了几何一致的体素建模和结构化的空间编码,这使得占据栅格特别适合于场景演化建模,并在各种方法中得到广泛应用。
OccWorld使用时空变换器从历史观测中生成未来场景和自车姿态标记,并通过空间混合实现全局一致的场景预测。随后,OccLLaMA集成了多模态大语言模型作为核心架构,而RenderWorld分别对空气网格和非空气网格进行标记化,以进行细粒度的三维场景建模。基于扩散的方法进一步提高了可控性和生成质量。OccSora能够根据任意轨迹预测四维占据栅格场景演化。DOME采用连续的类似变分自动编码器(VAE)的标记器来保留复杂的空间信息。考虑到占据栅格的高计算需求,最近的方法试图提高效率。DFIT-OccWorld仅预测动态体素流,同时通过姿态变换计算静态体素。类似地,GaussianWorld在高斯空间中明确地对场景演化进行建模,专注于变化而不是重建整个场景。
由于占据栅格不能直接从传感器获取,从图像重建占据栅格至关重要。DWM将这一三维预测任务扩展到四维,即时空预测。一种直接的方法是集成Img2Occ模块,但这可能会导致误差累积。然而,最近的进展旨在直接从二维输入推断三维世界的时空演化,实现语义、三维结构和时间动态的协同学习。DriveWorld在预测场景动态时间变化的同时传播静态空间上下文。通过从多视图视频中学习时空表示,它实现了精确的占据栅格预测。此外,Drive-OccWorld将规划器与DWM相结合,利用基于运动感知的鸟瞰图(BEV)序列作为中介,直接从多视图图像预测占据栅格和流。这种集成为规划器提供了丰富的先验信息,从而提高了规划过程的安全性和准确性。
除了从图像重建占据栅格外,一些方法还从点云导出占据栅格伪标签,实现自监督训练。例如,UnO通过从未来激光雷达扫描中采样正负例来生成连续的占据场,实现对 点云的自监督学习。类似地,UniWorld和NeMo通过对点云进行体素化生成占据栅格伪标签。UniWorld融合多帧点云生成伪标签并学习时空动态,而NeMo进一步集成图像预测和运动流模块以增强体素表示,提高规划性能。
点云场景演化
点云通常由激光雷达传感器捕获,提供了三维环境的精确几何表示。然而,其稀疏和无结构的性质给生成任务带来了重大挑战,使得有效利用点云进行场景建模和预测变得复杂。Copilot4D采用矢量量化变分自编码器(VQ-VAE)标记器来处理复杂的观测,并通过利用改进的离散扩散采用并行推理加速方法。此外,LidarDM通过结合静态场景和移动物体提供基于布局感知的点云视频生成。
视觉点云预测(visual point cloud forecasting)不是直接输入点云,而是试图仅使用历史视觉图像预测未来点云演化。ViDAR提出将视觉点云预测作为一种可扩展的预训练任务,并探索语义、三维结构和时间动态的融合。最近,HERMES出现,将视觉点云预测与语言任务相结合,以增强生成和场景理解能力。尽管ViDAR使用了更长的历史视野和先进的潜在渲染模块,但HERMES的性能仍显著优于它。
多传感器数据融合已成为自动驾驶系统发展的关键趋势,因为它能够将二维数据的高分辨率细节与三维数据的精确空间几何信息相结合。MUVO将多模态数据组合成一种与传感器无关的几何表示,通过图像、占据栅格和点云实现准确的场景建模和演化预测。类似地,BEVWorld将图像和点云合并为统一的鸟瞰图(BEV)表示,并通过扩散预测未来表示,随后使用基于渲染的方法重建多传感器数据,实现自监督学习。相比之下,HoloDrive采用两个单独的模型并对齐它们,以联合生成多相机数据和激光雷达数据,确保二维和三维空间之间的一致性。
总体而言,DWM将生成技术扩展到三维场景演化,利用占据栅格和结构化表示来确保空间一致性,同时集成生成技术进行动态预测。它们通过多传感器融合增强了场景理解能力,能够更准确、更稳健地预测复杂场景的演化。
无场景范式
除了常用的图像、点云和占据栅格预测外,一些方法还探索了无需详细场景的预测。例如,实时自动驾驶系统优先考虑潜在世界状态转换,而行为模拟框架则强调以智能体为中心的运动动力学。我们将这些方法系统地归类为无场景范式。
潜在状态
与原始感官数据相比,潜在状态提供了一种高效的表示,能够无缝集成到决策过程中,并增强在各种驾驶环境中的泛化能力。基于强化学习的规划器通常利用潜在DWM,它能提供准确而密集的奖励、高效的并行训练和可解释的输出。监督学习也受益于对潜在状态的预测。例如,LatentDriver将预测的潜在状态和可能的行动建模为混合分布,捕捉决策的随机性,而LAW利用自监督潜在特征来增强端到端驾驶能力并提高效率。
多智能体行为
多智能体行为预测专注于预测场景内所有智能体的运动。TrafficBots探索了虚拟智能体(bot agents)行为的真实性。每个智能体根据其相应的目的地学习独特的 "个性",并从鸟瞰图(BEV)视角预测行动。类似地,CarFormer将每个对象建模为自监督的槽表示(slot representation),其中隐含了驾驶所需的必要信息。相比之下,AdaptiveDriver预测周围智能体的独特行为模式,随后展开相应的DWM来模拟它们的行为。
无场景范式超越了二维和三维表示。潜在状态提高了效率和泛化能力,而基于多智能体行为的模型捕捉了交互以降低风险。这些方法共同提高了自动驾驶系统的通用性。
应用
驾驶世界模型(Driving World Model, DWM)是一种自监督、数据驱动的方法,通过训练来预测未来场景的演变,部分方法仅需极少的注释数据。

对生成任务的广泛研究使DWM能够用作模拟器并生成数据。此外,DWM可以直接为决策过程和训练流程提供支持,从而增强自动驾驶系统的能力。在本节中,我们将总结DWM的应用,重点阐述世界模型对推动自动驾驶发展的贡献。
仿真模拟
自自动驾驶研究初期以来,仿真模拟就一直是训练和评估驾驶模型的关键工具,并且已经取得了显著成果 。然而,传统模拟器面临着诸多挑战,比如场景多样性有限,以及模拟环境与现实世界之间存在差距。DWM凭借其数据驱动的生成式模拟能力,有望解决这些问题。如图2(a) 所示,DWM能够基于各种输入形式模拟驾驶过程,严格遵循给定指令。这些条件包括但不限于车辆动作和场景描述,这不仅让模拟器使用起来更加便捷,还使其能够自主生成更精细的结构和多样化的场景细节。
DWM在逼真度、一致性和可控性方面取得了显著进展,这些对于可靠的现实世界模拟至关重要。Vista 能够提供高逼真度且高度可控的视频模拟,有助于进行动作评估。与之相关的,GEM 进一步提升了模拟质量,可以精确控制物体动力学、轨迹和人体姿态。同样,多项研究尝试在3D空间中模拟驾驶场景的演变 ,并展现出良好的前景。除了视觉上的真实感,近期的工作还强调对动作逼真度的评估,新提出的评估框架ACT-Bench 就是一个例证,它引入了强大的基线框架,显示出与动作指令的高度契合。此外,TrafficBots 对虚拟智能体行为的真实性进行了研究,进一步丰富了模拟场景。
基于强化学习的方法尤其受益于基于DWM的模拟的灵活性。Think2Drive 通过在潜在状态空间中进行推演,实现了高效的并行训练,避免了与复杂物理模拟器的交互。随后,Imagine2-Drive 利用高逼真度的DWM来模拟和评估多步轨迹,显著提升了规划性能。
DWM将高逼真度的生成能力与精准的可控性相结合,不仅缩小了模拟环境与现实世界的差距,增加了模拟场景的多样性,还实现了并行交互。这些进展极大地推动了自动驾驶领域的仿真模拟发展。
数据生成
与注重条真实的仿真不同,数据生成强调数据的多样性和保真度,旨在实现更广泛、更全面的场景覆盖,同时缩小与真实世界数据的差距。图2(b) 表明,DWM可以使用相同的注释生成多样化的驾驶视频,这显著提高了数据标注的多样性。
事实证明,DWM在利用合成数据扩充数据集方面非常有效 。例如,DrivePhysica 可以合成无限数量的高保真且多样化的驾驶视频,而LidarDM 能够生成高质量的激光雷达数据。值得注意的是,HoloDrive 展示了合成对齐的多模态数据的潜力。这些合成数据对下游任务(如3D检测)有促进作用,体现了DWM的可控性和高生成质量。虽然这些方法通常依赖于真实世界的注释来合成数据,但近期的进展 也在合成具有新颖轨迹的驾驶视频,缓解了真实世界数据集中的分布不均衡问题。
鉴于目前高质量自动驾驶数据集在规模上的局限性,DWM显示出利用合成技术获取大量高质量驾驶数据的潜力,为自动驾驶研究的推进提供了支持。
前瞻性驾驶
预瞻性驾驶强调通过对未来状态的准确预测来提升车辆的规划能力。通过预测周围智能体的行为和环境动态,自车可以主动探索不同行动的结果,从而在复杂驾驶场景中提高安全性和适应性。
如图2(c) 所示,典型的预瞻性驾驶方法是利用DWM预测多种潜在行动的结果,然后对这些预测进行评估,以优化最终行动决策。例如,DriveWM 将DWM的预测结果与奖励函数相结合,以选择最佳轨迹,而Drive-OccWorld 则将鸟瞰图(BEV)嵌入引入规划器,进一步优化规划。同时,ADriver-I 将多模态大语言模型和视频扩散模型相结合,联合预测视觉 - 行动(描述自车信息的图像和文本)对,展现出长时规划的潜力。一些方法还将预测和规划集成到一个统一的模型中,在实现出色性能的同时提供了更大的灵活性 。
准确的预测有助于提升驾驶性能,另一方面,使预测结果与未来观测保持一致也被证明是有效的 。此外,AdaWM 利用预测状态与未来状态之间的差异来指导微调,提高了对陌生环境的适应性。
预瞻性驾驶的成功表明,DWM不仅可以通过仿真模拟和数据生成间接促进自动驾驶,还能积极参与决策和优化过程,实现预测与规划的协同效应。
4D预训练
预训练已在多种方法中得到了实证验证。然而,传统的预训练方法往往忽略了4D动态因素,而这对于自动驾驶至关重要。DWM旨在预测场景演变,这一目标天然适合自监督学习和大规模预训练。如图2(d) 所示,DWM利用大量未标记的多模态数据进行4D预训练,提升了一系列下游驾驶任务的性能。
现有的大多数任务都强调以视觉为中心的预训练,旨在通过从多视图图像数据中学习4D场景演变来捕捉空间和动态感知。为了利用大规模未标记的图像 - 点云对,UniWorld 从点云生成占据栅格伪标签,用于4D预训练。为了消除对伪标签的依赖,ViDAR 引入了一种基于视觉点云预测的新方法。通过提出潜在渲染算子,该方法保留了所学鸟瞰图(BEV)表示的判别性3D几何信息,确保了与下游任务的无缝集成。此外,NeMo 将RGB重建和占据栅格预测相结合,学习能够同时保留3D几何和语义信息的4D体素表示。为了捕捉时空动态,DriveWorld 分别处理时间动态和静态场景,并采用任务提示以适应各种下游任务。
近期的方法也在探索以点云为中心的预训练。UnO 通过预测由未来点云生成的连续4D占据场,学习几何结构、动力学和语义信息。相比之下,AD-L-JEPA 通过重建掩码嵌入进行预训练,实现更简单,且学习到的表示更强大。最后,BEVWorld 探索对多传感器数据进行预训练,将图像和点云编码为统一的鸟瞰图(BEV)表示。
总体而言,DWM通常通过自监督学习进行4D预训练,捕捉时空动态,减少对注释的依赖,并在广泛的任务中提升性能,为自动驾驶的发展铺平了道路。
评估
由于驾驶世界模型(DWM)缺乏标准化的基准测试,全面了解现有资源和评估方法对于推动该领域的发展至关重要。在本节中,我们将总结自动驾驶领域的主要数据集,尤其是针对DWM提出的数据集,并讨论为各种基准测试设计的评估指标。
数据集
自动驾驶的发展在很大程度上依赖于高质量的数据集,这些数据集需要涵盖多样化和全面的场景。在表2中,我们回顾了自动驾驶研究中最具影响力的数据集,重点关注其规模和多样性。值得注意的是,DrivingDojo是专门为训练具有复杂驾驶动力学的驾驶世界模型而设计的。

评估指标
在自动驾驶领域,驾驶世界模型(DWM)主要通过基于视频生成的方法进行训练,并应用于各种与驾驶相关的任务。这些任务的多样性使得单一指标难以全面评估所有研究中的模型性能。因此,该领域的研究人员会根据具体的任务和研究领域选择专门的评估指标。表3概述了广泛使用的评估指标及其相应含义。

这些评估指标对不同的DWM进行了深入评估,为进一步的研究提供了指导。然而,某些方面,如一致性和可控性,仍有待深入研究。为了解决这些局限性,一些研究提出了新的评估指标。例如,为了评估可控性,一种广泛采用的方法是比较训练好的检测器在生成数据上的输出与相应条件,或者与同一检测器在真实数据上的预测结果。此外,关键点匹配(KPM)和平均点到平面能量被引入,分别用于评估多摄像头视频和激光雷达视频的一致性。
局限性与未来工作
尽管驾驶世界模型(DWM)的研究取得了显著进展,但仍存在一些局限性,可能会阻碍其充分发挥潜力。此外,使DWM适用于各种自动驾驶应用仍是一项持续的挑战。在本节中,我们将深入讨论当前的局限性,并概述未来研究和发展的潜在方向。
数据稀缺
收集驾驶数据成本高昂,尤其是对于长尾但对安全至关重要的场景,这导致数据集有限且分布不均。近期的研究在扩展和多样化驾驶视频数据集方面取得了进展。然而,获取高质量的3D数据和对齐的多传感器数据集仍然具有挑战性。虽然DWM在合成数据以改进下游任务方面显示出了潜力,但如何扩充数据以提升DWM本身仍是一个未解决的问题。
效率
生成任务对DWM的推理效率提出了挑战,增加了计算成本和延迟,这阻碍了其在实时驾驶应用中的使用。详细的4D场景表示进一步加大了对计算和内存的需求。近期的研究强调,将场景解耦是一种有效的策略。此外,探索更高效的表示形式是一个切实可行的研究方向。
可靠的仿真
一个关键问题是如何确保在复杂模拟(例如长时推演和剧烈视角变化)和多变的驾驶情况(例如多样化的交通和天气)下,DWM的性能不会显著下降。这对模型的鲁棒性和泛化能力提出了重大挑战。为了解决这些问题,一些研究提出了部分解决方案。例如,DrivingDojo提供了多样化的驾驶视频数据集,AdaptiveDrive开发了适应不同环境的DWM,InfinityDrive专注于提高长期性能。尽管取得了这些进展,但这仍然是一个极具挑战性和影响力的研究领域,未来需要进一步探索和创新。
另一个挑战是模型产生的幻觉和不符合物理规律的情况(例如车辆突然出现和速度估计错误),即使在正常情况下也可能导致危险的决策。DrivePhysica通过引入额外条件来解决这个问题,而具有跨模态验证的多模态场景输出则是另一种可行的解决方案。
统一任务
现有的DWM主要支持预测任务,通过预测场景演变来隐含地理解场景,而不是通过对这一关键能力的明确监督。结合语言任务为解决这些局限性提供了一个有前景的方向。例如,图像字幕和问答(QA)等任务促进了全面的理解,而因果推理则有助于学习支配现实世界演变的基本原理。此外,预测和规划的无缝集成,即端到端的DWM,可以充分发挥框架的潜力。
多传感器建模
自动驾驶系统主要依赖多传感器配置,不同模态的数据相互补充。因此,基于单模态场景的DWM不太适合这类系统。尽管一些研究在多模态数据集成方面取得了进展,但该领域仍有很大的探索空间。此外,考虑到对齐的多传感器数据成本高昂,利用广泛可用的未对齐甚至未配对的多传感器数据是一个有价值的研究方向。
攻击与防御
对抗攻击很容易导致严重的事故,对驾驶安全构成重大威胁。这些攻击涉及精心制作的对人类不可察觉的对抗补丁,使得检测和缓解变得尤为困难。尽管其潜在影响巨大,但目前针对DWM的对抗攻击研究仍然不足。因此,研究此类攻击并开发有效的防御策略具有至关重要的实际意义。这些努力对于推动DWM在现实世界自动驾驶应用中的安全可靠部署至关重要。
结论
驾驶世界模型(DWM)日益被视为自动驾驶系统架构中的一个基本组成部分,旨在通过预测未来演变来改进决策。在本文中,我们探讨了DWM的具体贡献,不仅按预测场景模态进行了系统的概述,还总结了DWM的应用及其对自动驾驶的影响,并回顾了常见的数据集和评估指标。我们进一步深入研究了当前的局限性,并指出了一些有前景的未来研究方向,以克服这些挑战并推动该领域的未来探索。我们相信,这项综述将为早期研究人员提供DWM领域关键进展的快速概述。
参考
1\] The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey
##### #Topo2Seq
通过拓扑序列学习增强拓扑推理
论文链接:https://arxiv.org/pdf/2502.08974
****
**摘要**
从透视图(PV)中提取车道拓扑对于自动驾驶的规划和控制至关重要。这种方法无需依赖高精度(HD)地图即可为自动驾驶车辆提取潜在的可行驶轨迹。然而,DETR框架检测的无序性质和较弱的远程感知可能导致车道段端点错位和拓扑预测能力受限。受语言模型学习上下文关系的启发,道路连接关系可以被显式建模为拓扑序列。我们介绍了Topo2Seq,一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心部分是在车道段解码器和拓扑序列解码器之间的随机顺序提示到序列(prompt-to-sequence)学习。双解编码器分支同时学习从有向无环图(DAG)和包含地理元信息的车道图中提取的车道拓扑序列。随机顺序提示-序列学习从车道段解码器预测的车道图中提取无序关键点,然后将其输入拓扑序列解码器的提示设计中以重建有序和完整的车道图。通过这种方式,车道段解码器能够从拓扑序列解码器中学习强大的远距离感知和精确的拓扑推理。值得注意的是,拓扑序列解码器只在训练过程中引入,而不影响推理的效率。在OpenLane-V2数据集上的实验评估表明,Topo2Seq在拓扑推理方面具有最先进的性能。
****
**介绍**
近年来,自动驾驶中的车道拓扑推理受到越来越多的关注。这是因为自动驾驶传统上依赖于离线高清地图来提供道路信息。然而,道路状况可能是不确定的和具有挑战性的,过时的离线高清地图对自动驾驶汽车来说可能是灾难性的。单纯依赖这些地图并不足以满足高级别自动驾驶的高级需求。
为了解决这些问题,自动驾驶车辆需要进行车道拓扑推理,这涉及从环视图像中实时感知周围道路并提取道路中心线的几何位置和拓扑关系。因此,车道拓扑推理对于端到端自动驾驶中的轨迹预测和规划至关重要。
最近关于车道拓扑推理的研究已经将中心线拓扑转化为车道图。这些端到端网络被设计用来预测以有序点集为表征的线段和由邻接矩阵表示的拓扑关系。然而,这些方法并没有显式地建模每个车道段之间的关系,而是依赖于MLP来确定每个查询之间的连接概率。由于DETR框架中的弱感知和无序检测特性,简单的MLP难以有效地学习车道之间的连通性。因此现有的方法存在多个弱点,如图1(a)所示。

图1:以往方法(a)和Topo2Seq(b)的比较:由于Deformable-DETR每个查询的采样位置有限并且检测的无序性,现有方法表现出严重的弱点。(b) Topo2Seq采用了一种随机提示-序列学习策略,通过拓扑序列学习增强了车道段感知和拓扑推理。
在语言模型中,序列学习可以在保持正确顺序的同时捕获长文本中的上下文关系。因此,受语言模型的启发,将车道图表示为序列,可以显式地捕获车道的几何位置和拓扑关系。然而,在序列到序列(sequence-to-sequence)的学习方法中,自回归模型依赖于先前的预测来产生后续输出,由于需要重复推理,导致相当低的推理效率(约0.1FPS)。 在本文中,我们提出了Topo2Seq,一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq采用了一种双解码器结构,包括一个车道段解码器和拓扑序列解码器。拓扑序列解码器预测从有向无环图(DAG)中提取车道拓扑序列,而车道段解码器提取包含几何信息的车道图。然后随机提示-序列学习用于从车道段解码器预测的车道图中提取无序的关键点。这些关键点被输入拓扑序列解码器的提示设计中,从而能够重建一个有序和完整的车道图。在这种情况下,车道段解码器通过共享的编码器从拓扑序列解码器中获得了强大的远程感知和精确的拓扑推理能力,如图1(b)所示。值得注意的是,拓扑序列只在训练中引入,并不影响推理效率。
本文的贡献可以概括为以下:
* 我们提出了Topo2 Seq,一个新的双解码器训练框架,通过利用拓扑序列学习来增强拓扑推理。
* 我们显式地将车道图建模为序列来捕获车道的远距离几何位置和拓扑关系。
* 我们引入了一种随机顺序提示-序列学习机制,使车道段解码器从拓扑序列解码器中获得鲁棒的远程感知和准确的拓扑推理能力。
* 在基准数据集 OpenLane-V2上进行的大量实验证明了Topo2Seq的优秀性能。
**方法详解**

图2:Topo2Seq的框架。
Topo2Seq由三个主要组件组成。首先,通过图像主干、FPN和BEVFormer对环视图像进行处理,生成鸟瞰图(BEV)特征。然后,车道段解码器预测车道图。从预测的车道图中提取的首尾点被输入拓扑序列解码器以构造关键点提示,这些提示随后并与边缘序列连接。拓扑序列解码器推断离散关键点之间的关系,并将其重构为一个连贯的车道图。通过这样,拓扑序列解码器增强了BEV特征,改进了远距离感知能力,从而帮助车道段解码器进行拓扑推理。
1. 车道段解码器
我们将一组实例级的查询表示为 ,其中是预设的查询数,通常大于车道图中的中心线数。这些查询被输入车道段解码器以获得更新后的查询:

其中**LaneDec**表示车道段解码器。在每个车道段解码器层内,车道查询通过自注意模块、车道注意模块和前馈网络依次进行更新。
2. 预测头
我们使用MLPs(多层感知机)来生成3D车道坐标和拓扑矩阵A。车道间的拓扑关系预测为:

其中MLP是相互独立的。为了提供更详细的车道图表示,我们不仅预测拓扑结构,同时预测了左右车道边界偏移量,边界类型以及人行横道。
3. 拓扑序列解码器
我们参考Pix2Seq设计了拓扑序列解码器。每个解码器层包括自注意模块、交叉注意模块和前馈网络。自注意模块中的因果掩模保持自回归特性。整个结构在提取和细化BEV特征方面具有几个优势: (1)增强型特征细化:该模型可以根据序列中的关键点,有选择性地关注BEV特征的相关领域。这种有针对性的注意力通过强调对准确重建车道图或理解场景至关重要的区域,有助于细化BEV特征。(2)改进远程依赖:拓扑序列解码器增强了对序列中遥远关键点与BEV特征中相应区域之间的远程依赖性的捕获。这对于像车道拓扑推理这样的任务尤其重要,在这些任务中,理解广泛分离的点之间的关系是至关重要的。(3)上下文集成:通过关注特定的关键点提示,模型可以减少BEV特征中不相关或冗余信息的影响。这导致了更高效的特征提取,并可能减少最终预测结果中的噪声。训练拓扑序列解码器的输出可以表示为:

其中**TopoSeqDec**表示拓扑序列解码器,表示预测的边缘序列。
4. 序列结构
根据RoadNet,我们将有向无环图(DAG)转换为边序列。车道上的每个关键点都可以作为起点或终点,每条边都可以用6个整数表示:

其中,前两个整数int(),int()表示关键点的离散坐标。cls表示关键点的类别,可以是祖先、直系、分支或克隆节点。con表示关键点之间的连接。如果cls是祖先或直系的,则con被设置为0。否则,con将被设置为父关键点的索引。由于贝塞尔曲线可以有效地表征关键点之间的车道轨迹,最后两个整数int(),int()表示贝塞尔曲线的中间控制点。为了确定关键点的唯一顺序,我们选择BEV透视图中右前方的位置作为起点,并使用深度优先搜索来执行排序。

图3:输入序列和输出序列示意图
在训练过程中,我们构建了如图所示的两种类型的序列:输入序列和用于监督的目标序列。输入序列从\< Start \>标记开始,然后是关键点提示,然后是GT边,剩余的长度填充噪声边。关键点提示包括所有预测边的关键点以及噪声边。值得注意的是,关键点提示是无序的,不对应于边序列中的坐标的顺序。最后,关键点提示以\< EOK \>标记结束。在目标序列中,关键点提示的位置用\< pad \>标记填充,然后是地面真实边和噪声边,最后以\< EOS \>结束。为了帮助拓扑序列解码器识别哪些边是噪声边,有监督的噪声边在其类别位置用噪声类\< ncls \>标记,而其他位置则用\< pad \>标记填充。\< pad \>标记不计入损失计算。
5. 随机顺序提示到序列学习
由车道段解码器预测的车道通常有错位的端点,需要四个点来代表两条车道线,并可能产生显著的几何间隙。相比之下,边缘序列只使用了三个点来完美对齐的两条车道线,增强了对自动驾驶轨迹的理解。为了利用序列到序列学习的远距离理解和序列化关系能力,我们在关键点提示处促进了车道段解码器和序列拓扑解码器之间的交互。 基于来自车道段解码器的预测,我们根据置信度从高到低对预测的车道线进行排序,并使用预测的邻接矩阵过滤掉任何重复的首尾点:

其中,关键点的坐标被离散化了。随机顺序提示到序列学习的目标可以表示为:


6. 损失函数
Topo2Seq中的总体损失函数定义如下:

其中,表示L1损失。表示车道分类的焦点损失(Focal Loss)。包括交叉熵损失和dice损失。表示分类左右车道类型的交叉熵损失(例如,不可见、实心、虚线)。是一个用于监督预测的邻接矩阵A真实邻接矩阵之间的关系信息的焦点损失。表示在预测标记时监督拓扑序列解码器的最大似然损失。每个损失的权重用,,,,和表示。
**实验结果\&评价指标**
表1:模型定量性能比较(OpenLane-V2 数据集-车道段感知任务)

表1展示了不同模型在真实场景数据集OpenLane-V2上的定量结果,可以看到Topo2Seq在该数据集上取得了优秀的性能。我们首先比较了Topo2Seq与最先进的车道段检测方法在OpenLane-V2基准测试上的性能。关于OpenLane-V2子集A的结果如表1所示。当训练24个阶段(12个预训练阶段和12个解码器交互阶段)时,Topo2Seq性能在指标上比LaneSegNet高1.8%,在上高1.5%。使用ResNet-50进行了总共48个阶段的两阶段训练过程,Topo2Seq实现了37.7%的mAP和29.9%的。在相同的配置下,Topo2Seq在上超过LaneSegNet 2.0%,在上超过2.6%。
表2:模型定量性能比较(OpenLane-V2数据集-中心线感知任务)

表2展示了不同模型在OpenLane-V2数据集的中心线感知任务上的定量结果。在相同的24epochs训练中,Topo2Seq在OLS∗比LaneSegNet好2.0%,在高出2.4%,在高出1.7%。与同样经过484epochs的TopoMLP相比,Topo2Seq在上的表现比TopoMLP高出4.2%,在OLS∗中表现高出2.5%,在上高出2.4%,在为则高出2.7%。这些结果表明,在训练过程中引入一个额外的序列解码器交互,使得网络在拓扑推理方面取得显著改进。
**消融研究**
表3:对openlane-V2基准的消融研究: OP、RP、RPL分别为顺序GT关键点提示、随机顺序GT关键点提示和随机顺序提示到顺序学习。

我们研究了Topo2Seq中的每一个重要设计。消融研究见表3。在序列学习中引入有序GT关键点提示时,网络只能学习关键点之间的轨迹,而不必推断它们之间的关系。这解释了为什么Index 2的结果优于Index 1的结果,了提高了2.7%。将Index 2和Index 3的结果进行比较,可以发现,由于车道段解码器输出的不准确和不稳定,序列拓扑解码器与之交互过早导致性能不如使用随机顺序的GT关键点作为提示。然而,与Index 1中的结果相比,这种方法在拓扑推理方面仍然有了轻微的改进。从Index 2和Index 4的结果中可以看出,当车道段解码器预测的关键点被引入关键点提示,并在两个解码器间进行了24个阶段额外的交互训练时,mAP提高了2.8%,TOP增加了2.1%。这一结果表明,序列学习可以进一步增强车道分割解码器对关注区域的BEV特征的提取,特别是增强远程感知和拓扑推理。

图4:模型定性结果比较
如图4所示,我们可视化了由LaneSegNet和Topo2Seq生成的车道图。相比之下,Topo2Seq可以生成了具有对齐的端点的高质量的车道图,并且具有更可靠的远距离感知和准确的拓扑关系。这被归因于与序列拓扑的交互所带来的优势。
**结论**
我们介绍了Topo2Seq,一种基于拓扑序列学习的车道拓扑推理方法。受到语言模型的启发,我们通过序列到序列的学习,解决了基于DETR的拓扑推理框架的局限性。通过随机顺序提示到序列学习,我们增强了拓扑序列解码器和车道段解码器之间的交互。该方法能够使Topo2seq生成端点对齐以及拓扑关系更加准确的车道图。在OpenLane-V2数据集上的实验结果表明,Topo2Seq在拓扑推理方面实现了最先进的性能。
##### #稀疏注意力、视觉语言新突破
各位AI爱好者,本周Hugging Face Daily Papers又带来了一波前沿研究成果!从长上下文建模到多模态视觉语言模型,再到AI研究Agent的新框架,TOP 10论文亮点满满,投票数火爆,值得一读!以下是简要介绍,快来一起看看吧~
1. Native Sparse Attention 🚀(129票)
🔗 https://huggingface.co/papers/2502.11089
🔥 NSA(Native Sparse Attention)来了!针对长上下文建模的高计算成本问题,NSA通过动态层次稀疏策略和硬件优化,实现高效建模。实验证明,它在64k序列上大幅提速,同时性能媲美甚至超全注意力模型。效率与能力双赢!
2. Qwen2.5-VL Technical Report 🔥(128票)
🔗 https://huggingface.co/papers/2502.13923
🚀 Qwen视觉语言系列旗舰升级!Qwen2.5-VL在视觉识别、文档解析和长视频理解上表现亮眼,支持动态分辨率处理,能精准定位对象并提取结构化数据。72B模型直逼GPT-4o,文档理解更是强到飞起!
3. MLGym: AI研究Agent新框架 🚀(121票)
🔗 https://huggingface.co/papers/2502.14499
🔥 Meta MLGym和MLGym-Bench首次为AI研究任务打造Gym环境,涵盖13个开放性任务。测试结果显示,即便是前沿LLM也难生成新颖假设,暴露了AI研究能力的瓶颈。开源框架已就位,等你来挑战!
4. SuperGPQA: 285学科LLM评估 🔥(78票)
🔗 https://huggingface.co/papers/2502.14739
🚀 覆盖285个学科的超大基准SuperGPQA登场!通过Human-LLM协作筛选题目,测试LLM的知识与推理能力。结果表明,即便是DeepSeek-R1也只有61.82%的准确率,AGI还有很长的路要走。
5. SigLIP 2: 多语言视觉编码器 🚀(77票)
🔗 https://huggingface.co/papers/2502.14786
🔥 SigLIP 2在图像-文本任务上全面升级,加入自监督损失和数据筛选技术,支持多分辨率输入。性能提升的同时,还优化了多语言理解和公平性,提供从86M到1B的多种模型选择。
6. Soundwave: 高效语音-文本对齐 🔥(73票)
🔗 https://huggingface.co/papers/2502.12900
🚀 Soundwave用1/50的训练数据打败Qwen2-Audio!通过新型架构和高效策略解决语音与文本的表示差距问题,翻译和语音任务表现抢眼。开源项目已上线,快去体验!
7. Cramming 1568 Tokens into a Vector 🚀(57票)
🔗 https://huggingface.co/papers/2502.13063
🔥 将1568个Token压缩进一个向量?这篇论文探索了嵌入空间的极限,发现x1500的压缩比是可行的!研究表明,压缩极限取决于序列的不确定性,揭示了模型设计的巨大优化空间。
8. The Danger of Overthinking 🔥(52票)
🔗 https://huggingface.co/papers/2502.08235
🚀 大型推理模型(LRM)也会"想太多"?论文分析了过思考的三种模式:分析瘫痪、错误行动和过早放弃。减少过思考可提升30%性能并降低43%计算成本,实用性拉满!
9. How Much Knowledge in a LoRA Adapter? 🔥(50票)
🔗 https://huggingface.co/papers/2502.14502
🚀 LoRA适配器能塞多少新知识?研究发现,混合已知和新事实的训练数据效果最佳,但仍可能损害模型的通用能力。如何平衡新知识与性能,值得深思。
10. Continuous Diffusion for Language Modeling 🚀(48票)
🔗 https://huggingface.co/papers/2502.11564
🔥 扩散模型也能玩语言建模!通过连续流设计和径向对称训练框架,这篇论文让扩散模型性能逼近自回归模型,开源代码已就位,赶紧去试试!
##### #HW智驾正式上车,搭载双激光雷达
AODI不想努力了?
2025,奥迪全面"投华"。
**华为智驾首搭燃油车**,全新奥迪A5L火了。
最前沿的端到端架构,带来最先进的「车位到车位」体验。
AI司机上车传统豪华,奥迪智驾一夜飞升,就是现在。
官宣合作7年,兜兜转转奥迪还是牵手了华为。
这也给豪华品牌,乃至整个合资阵营出了道题:
全面智驾,未来已来,是坚持自研还是赶紧上车中国智驾方案?
奥迪率先全面"投华"
先说明一下,这里说的全新奥迪A5L是来自上汽旗下,不是一汽也要出的那款A4L换代改名后的A5L。
全新**奥迪A5L**车长超4.9米,溜背造型设计,轿跑风格。本次改款上市,有两大亮点值得关注:
* **华为智驾首搭燃油车**。
* **首个双激光雷达**华为智驾车型。
不要被A5L"光秃秃"的前车顶迷惑,它的两颗激光雷达在车灯下方,类似小鹏转向视觉路线前的车型设计。
这种设计让激光雷达和车身融合的更好,但因为位置稍低,感知会受到影响,所以采用了两颗激光雷达"补盲"。
**双激光雷达,这在华为系中尚属首例**。
已上市的华为**高阶智驾**车型,最多搭载3颗激光雷达,比如方程豹豹8。
大部分都只搭载了1颗激光雷达,比如包括50万级问界M9在内的鸿蒙智行全系。
搭载4颗激光雷达尊界S800,将在5月底上市。
既然搭载了激光雷达,那上车的软件算法肯定是**ADS 3.0** ,基于**端到端架构** ,支持城区NOA**「车位到车位」**。
端到端是智能驾驶最前沿的技术范式,其实就是AI模型从过去只负责感知任务,到现在感知、决策和规划等任务一把抓,算法上限更高,并且让AI司机开车更拟人。
「车位到车位」,则是目前智能驾驶落地的最先进体验。
智能驾驶在停车位原地启动,AI帮你开出车位,过闸机,驶入公路,领航辅助驾驶,最终驶入指定车位。
**「代客泊车」**陆陆续续也会开放,到了停车场电梯口你可以直接下车,然后车子自己去找车位。
对用户来说,相当于有了自己的专职司机,不管是日常城区通勤还是高速长途跋涉,都更省心省力。
对奥迪来说,在华为的带动下,其智驾座次从落后一代一夜飞升至「领先一代」。
除了外观和搭载华为智驾,奥迪A5L曝光的信息不多,有望会在4月底的上海车展上市。
据了解,A5L暂时还未上车鸿蒙座舱,不过仅凭智驾已经让不少网友心动了。
有网友看了以后感慨:
A6不香了。
这下压力瞬间给到一汽了?
其实根据此前多方消息,一汽奥迪相关负责人已经剧透,**今年所有上市**车型都将搭载华为智驾。
一汽奥迪率先放风,上汽奥迪赶紧出牌。
兜兜转转,奥迪还是在华全面"投华",率先转型"俊杰汽车"。
延续的合作
实际上,早在2018年7月,奥迪就在自动驾驶领域与华为达成了合作。
△左为时任奥迪中国执行副总裁梅萨德,右为华为董事徐文伟,图源:华为
当时原计划率先落地**奥迪Q7**。
徐文伟在当时展望未来,认为通过双方的合作:
相信不久的将来,消费者可以体验到更加安全、舒适、便捷、智能的自动驾驶服务。"
但在**2018年** 后,由于**众所周知的原因**,双方再也没有提起过这项合作,相关工作的推进也鲜少披露。
但在这7年里,双方一直在以各自的方式探索自动驾驶。
华为的工作,大家都比较熟悉了,ADS不断迭代,赋能车企转动数据飞轮,预计将于今年迈向L3级自动驾驶。
奥迪则早早瞄向L3,却在2019年底正式取消了L3项目,将资源分别投入L2和L4级自动驾驶研发。
后来在2021年世界物联网博览会上,展示了结合车联网的L4级自动驾驶公开路测,不过演示路程仅有**6.5公里**。
在L2维度则鲜有作为,2022年底推出的A6L搭载的还是自适应巡航系统。半年以后,国内就开卷城区NOA了。
智能化的技术劣势,开始转变为市场劣势。
2024年,奥迪全球销量为167.1万辆,**下跌11.8%**,在BBA中排名最末。
其中中国市场交付了64.94万辆车,销量同比下滑11%。
转型成绩也不太理想,2024年奥迪纯电动车销量为16.4万辆,下跌8%,占总体销量还不到10%。
最终在市场无形大手的推动下,奥迪再度牵手华为。弹指7年,当时的合作见证者,有的已经退休了。
与此同时,同样面临转型困境的奔驰,也把希望放在了中国,押注智能化。
据了解,奔驰目前在华研发团队超2000人,依靠中国研发团队开发无图方案,去年首秀上海,目前尚不清楚量产上车,全面铺开的事件。
宝马则在今年1月,要量产搭载V2X(Vehicle to X)模块的全新宝马5系,增强整车智驾能力,表示"要继续加大研发投入,携手**中国创新力量**"。
BBA是豪华品牌的代表者,随着他们重注智能驾驶,再加上比亚迪等力推"全民智驾",中国市场的风向很明确了。
可以预见后续二线的豪华品牌,以及大众市场诸合资将陆续跟进。
自研时间太久,市场只争朝夕。
##### #2024自动驾驶数据集完全指南:20+高质量开源数据集
**1、 题目: MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception**
链接: https://t.zsxq.com/BRSA3
简介: MSC-Bench: 第一个针对多传感器自动驾驶感知模型在各种传感器损坏情况下的鲁棒性进行评估的综合基准
时间: 2025-01-10T23:52:48.526+0800
**2、 题目: Hidden Biases of End-to-End Driving Datasets**
链接:https://t.zsxq.com/BRSA3
简介: 2024 CARLA挑战赛中的地图和传感器赛道上排名第一和第二!Bench2Drive测试路线中SOTA!
时间: 2024-12-13T12:01:19.839+0800
**3、 题目: Multi-cam Multi-map Visual Inertial Localization: System, Validation and Dataset**
链接: https://t.zsxq.com/Pvi0i
简介: 一种多摄像头多地图视觉惯性定位系统
时间: 2024-12-08T00:04:34.943+0800
**4、 题目: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection**
链接: https://t.zsxq.com/U7foq
简介: 首个针对3D目标检测的现实世界开放世界自动驾驶基准
时间: 2024-11-28T14:12:50.201+0800
**5、 题目: V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception**
链接:https://t.zsxq.com/cbO6x
简介: 全球首个集成4D Radar并面向真实场景的多模态车路协同感知数据集
时间: 2024-11-19T21:19:52.213+0800
**6、 题目: V2X-R: Cooperative LiDAR-4D Radar Fusion for 3D Object Detection with Denoising Diffusion**
链接: https://t.zsxq.com/3Xm4K
简介: V2X-R: 首个结合LiDAR、相机和4D Radar的V2X模拟数据集
时间: 2024-11-14T22:38:05.292+0800
**7、 题目: Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models**
链接: https://t.zsxq.com/ncOgu
简介: 通过BEV注入多模态大模型对自动驾驶的整体理解:BEV-InMLLM整合了多视图、空间意识和时间语义,以增强在NuInstruct任务上的MLLMs的能力
时间: 2024-01-03T21:23:08.634+0800
**8、 题目: ROAD-Waymo: Action Awareness at Scale for Autonomous Driving**
链接: https://t.zsxq.com/8T9mw
简介: ROAD-Waymo,一个广泛的数据集,用于开发和评估道路场景中agents、动作、位置和事件检测技术,该数据集基于Waymo Open数据集
时间: 2024-11-06T21:58:38.047+0800
**9、 题目: Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions**
链接:https://t.zsxq.com/xtCoc
简介: 第一个专注于恶劣天气条件的开源合成协同感知数据集
时间: 2024-10-15T23:59:12.411+0800
**10、 题目: TLD: A Vehicle Tail Light signal Dataset and Benchmark**
链接: https://t.zsxq.com/c2Fkk
简介: 转向灯、刹车灯数据集来了!
时间: 2024-09-06T23:22:06.957+0800
**11、 题目: WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving**
链接: https://t.zsxq.com/VHTIL
简介: WayveScenes101: 该数据集专注于包含众多动态和可变形元素、几何形状和纹理变化的复杂驾驶场景。数据集包含101个驾驶场景,涵盖广泛的环境条件和驾驶情景
时间: 2024-07-14T22:20:58.691+0800
**12、 题目: SID: Stereo Image Dataset for Autonomous Driving in Adverse Conditions**
链接: https://t.zsxq.com/p9xIi
简介: SID:用于恶劣条件下自动驾驶的立体图像数据集
时间: 2024-07-09T23:28:37.587+0800
**13、 题目: DurLAR: A High-Fidelity 128-Channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-Modal Autonomous Driving Applications**
链接:https://t.zsxq.com/4ntGo
简介: DurLAR:一个高保真度的128通道3D激光雷达数据集
时间: 2024-06-17T23:27:08.364+0800
**14、 题目: Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset**
链接:https://t.zsxq.com/cdN4u
简介: 纽约大学联合自动驾驶公司May Mobility,推出了MARS数据集,该数据集统一了多agent、多遍历和多模态自动驾驶研究的场景
时间: 2024-06-16T09:52:47.868+0800
**15、 题目: SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception**
链接: https://t.zsxq.com/XGIKB
简介: 首创的多视角自车和固定感知的基于事件的合成数据集
时间: 2024-04-27T09:43:05.766+0800
**16、 题目: PLoc: A New Evaluation Criterion Based on Physical Location for Autonomous Driving Datasets**
链接:https://t.zsxq.com/xypV4
简介: PLoc:一种新的基于物理位置的自动驾驶数据集评估标准
时间: 2024-04-06T00:09:04.617+0800
**17、 题目: CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks**
链接: https://t.zsxq.com/45W4L
简介: CORP:专为校园场景下的多模态路边感知任务量身定制的首个公共基准数据集
时间: 2024-04-05T23:57:47.758+0800
**18、 题目: Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception**
链接: https://t.zsxq.com/jvN0b
简介: 用于自动驾驶汽车感知的新型传感器有哪些?来看看这份NSAVP数据集和基准
时间: 2024-01-27T10:40:46.045+0800
**19、 题目: A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook**
链接:https://t.zsxq.com/HZCx9
简介: 200+自动驾驶数据集全面调研!
时间: 2024-01-04T22:54:54.556+0800
**20、 题目:英伟达和卡内基梅隆大学最新!V2V-LLM:基于多模态大语言模型的车对车协作式自动驾驶**
链接:https://t.zsxq.com/07jyx
简介: 一种基于LLM的协作式自动驾驶新框架,并配套发布首个面向车对车问答(V2V-QA)的数据集与评测基准
##### #中国首起L3事故?真刑啊
**中国"首起L3事故"**,最新进展来了.
从事件"曝光",到主要责任人被抓,前后时间不到一周。
但这次"刑"起来的,却不是L3的技术开发或运营方。
甚至涉事车企,也表示自己也是一脸懵,很无辜。
发生了什么?
2月18日,广州天河警方发布了一则消息:
2月12日,广州天河警方接群众报警称,有人在网络上发布"首例智能驾驶致死案宣判车企担责70%"的虚假信息。接报后,警方迅速介入调查,**并于2月14日抓获犯罪嫌疑人闫某(男,53岁)**。
经查,闫某为吸粉引流、赚取流量收益,捏造不实信息,通过其在各大平台的个人自媒体账号发布不实帖文,造成恶劣影响。目前,闫某已被警方依法刑事拘留,其对上述行为供认不讳,案件正在进一步侦办中。
媒体与车企的纠纷恩怨屡见不鲜,报警发律师函的也不少,但这次性质格外严重:警方公告中直接使用了**犯罪嫌疑人** 的表述,而不是**违法嫌疑**。
区别在于,如果只界定为"违法",有可能只给予行政处罚,免于起诉。而一旦被以"犯罪嫌疑"处理,办案机关会将相关证据固定,移交起诉。
更精确地讲,"犯罪"特指有违反我国《刑法》的情节,并且社会危害程度较高。
那么,闫某到底说了什么?
2月12日,他通过自己控制的自媒体账号发布《L3级自动驾驶首例判决!车企担责70%,智驾法规全面重构》一文。文章称,**广州法院于2024年12月对一起小鹏汽车L3级自动驾驶追尾事故作出判决**。因系统未识别静止障碍物,车企需承担70%的赔偿责任,车主自负30%。
其中把案件称为"国内首例智能驾驶致死案",迅速在网络上引发广泛关注和讨论。
当天小鹏汽车发布公告辟谣,并报警处理。次日公安就侦破,主要犯罪嫌疑人涉嫌寻衅滋事罪已到案。
寻衅滋事罪在刑法中界定范围比较宽泛,行为人实施肆意挑衅,随意殴打、骚扰他人或任意损毁、占用公私财物等行为,或者在公共场所起哄闹事,造成了严重破坏社会秩序的损害结果都达到立案标准。
量刑一般分5年以下及5年到10年两个区间,视危害程度而定。
具体到这个案子,危害程度大概率会以相关内容在互联网的转发讨论数量为参考。
当然,最后是否以寻衅滋事罪起诉还不一定,因为闫某炮制Fake news的情节,也符合刑法中的**损害商业信誉、商品声誉罪**范围,量刑在2年以下。
查阅全国、广东地区类似案件情况,大多数都是以行政处罚手段处理,上升到违法犯罪处理程序的还真不多。
一方面,可能因为最新的政策风向更加倾向于保护民营企业;
更关键的,是因为这个谣言炮制的确太粗糙,没有什么翻案、模糊的空间。
首例L3事故?咋回事?
事实真相很简单:**根本不存在这样一个案例**,广州法院没判过,裁判文书也查不到。
因为小鹏现在量产的智驾系统,根本就不是L3,这是技术圈、用户、媒体,也包括小鹏汽车自己一致的共识。
特斯拉、小鹏等等玩家量产高阶智驾的全称,应该是**高阶辅助智能驾驶**,在国标GB/T 40429-2021中,只要带辅助二字,就属于L2及以下的范围。
L3及以上最本质的区别,是**"驾驶自动化"**,即在特定条件下,完全实现自动驾驶,"条件"越普适,级别越高。
小鹏XNGP不是L3,国内首批通过L3上路试点的车企名单中也没有它,自然不存在所谓"车企70%、用户30%"的案例。
不过官方有临时法规性质的文件中,口径统一为**智能网联汽车**,包含国标GB/T 40429-2021定义的L3级驾驶自动化(有条件自动驾驶)和L4级驾驶自动化(高度自动驾驶)。
至于事故责任,目前的仍然沿用2023年7月的规定:
事故责任归属的判断由交通违法行为发生地的公安机关交通管理部门管辖。
在测试过程中事故责任系车辆负责的,造成的损失首先由保险公司赔付,不足的部分由试点使用主体(申请车企或其他试点申请方)补齐。
也就是在L3试点阶段,具体情况具体商量,由当地交管部门凭经验和客观损失划分责任。
很明显是先收集案例积累操作经验,为后面L3的规模化量产上路做准备。
从种种迹象来看,L3结束试点,进入量产阶段可能也的确不远了。
国内公开宣布L3时间表的玩家,包括:
**小鹏汽车**------2025年底推出L3级智驾软件;
**华为也明确在今年推出L3商用版本**,合作车企之一岚图,透露L3车型已经在研发了;
**上汽旗下的通用、智己,则宣布与2026年实现L3商用**。
**极氪也将在4月上海车展公布自己的L3车型。**
背后的技术,100%无例外都是端到端体系。
这也使得L3即将爆发的前夕,中国和欧洲车企走向两条不同的路线:中国靠数据驱动的端到端,欧洲车企靠规则定义的传统范式(奔驰、宝马等有严苛条件的L3系统)。
北美呢?NHTSA最新的自动驾驶准入法规草案中,直接划分为辅助驾驶和全无人,没有给L3这种比较模糊的"人机共驾"留下任何操作空间。
核心难题仍然是:
L3大部分时间可以脱手脱眼,但注意力必须一直集中,随时准备接管。而驾驶员接管时机难以量化表述,一旦发生事故,很难说是系统能力不足还是用户接管时机不当。
基于此,L3呈现出这样的格局:中国努力探索,北美直接放弃,欧洲圈地自娱自乐。
对于用户来说,我们关心的则是:
一旦L3车型开卖上路,事故究竟谁来买单?
##### #OccProphet
港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%(ICLR'25)
本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『**OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework** 』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现**高效的未来4D占用预测**。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!相比此前最先进的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,内存占用减少近60%,仅需24G显存即可完成训练和推理。代码即将开源。
* 论文链接:https://arxiv.org/abs/2502.15180
* 代码链接:https://github.com/JLChen-C/OccProphet

图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%
**动机**
提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。
这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架------OccProphet。
它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步,**首次展现了4D占用感知在自动驾驶车辆上部署的可行性**。
**方法详解**
如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在***训练阶段*** 还是***推理阶段***都是计算友好的。

图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。
* **观察器(Observer)模块**:高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
* **预报器(Forecaster)模块**:在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
* **细化器(Refiner)模块**:通过促进帧间交互,进一步提升这些预测的质量。
* **预测器(Predictor)**:将经过优化的未来状态解码为占用或占用流。
OccProphet 在创新性方面主要做出了以下贡献:
* 一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
* 一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
* 实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。
**关键组件** ****
**观察器(Observer)**
观察器(Observer)模块接收4D运动感知特征作为输入,并生成时空感知表示。通过多相机RGB图像在时间戳上的数据,使用共享的图像编码器(例如ResNet)提取2D特征,这些特征被投影到3D空间中并聚合成体素化的3D特征。随后,来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系,形成4D特征,然后通过附加6-DoF自车姿态信息生成运动感知4D特征。考虑到直接处理的计算负担和3D空间大部分区域未被占用的事实,本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。****
**Efficient 4D Aggregation(高效4D聚合)**

图3:高效4D聚合模块
直接聚合原始4D运动感知特征会导致高计算成本。为提高效率,本文设计了名为高效聚合(Efficient 4D Aggregation, E4A)的模块,该模块首先通过下采样生成紧凑特征,然后在这些紧凑特征上利用时空交互实现聚合,最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将的通道数从减少到,形成特征。为了弥补因下采样导致的信息丢失,尤其是小物体的信息丢失,该方法一方面对下采样后的特征进行时空交互(即三元组注意力融合模块),另一方面对后交互特征进行上采样,并与下采样前相同分辨率的特征相加,直到上采样特征的分辨率匹配初始运动感知特征的分辨率。
**Tripling-Attention Fusion(三元组注意力融合)**

图4:三元组注意力融合(左)和三元组分解操作(右)
三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。
在数学表达上,给定输入特征,通过全局平均池化(GAP)、线性变换(Linear)、一维卷积(Conv)、归一化(Norm)及激活函数(Act)处理,分别得到场景、高度、BEV分支的输出。随后,通过对不同分支应用时间注意力(TA),并利用广播技术将这三个分支的结果相加,最终得到TAF模块的输出特征。****
**预报器 (Forecaster)**

图5:预报器的结构
给定由Observer模块输出的时空表示,预报器 (Forecaster)模块旨在生成未来状态。首先通过将时间轴折叠进通道轴来重塑,形成重塑后的特征。直接使用单一线性层预测未来帧特征的方法虽然简单,但难以适应不同交通场景下显著变化的空间时间复杂性,尤其在动态复杂的环境(如拥挤的十字路口)中预测难度更大。
为应对这些挑战,提出了一种灵活适应各种具有不同空间时间复杂性的交通场景的预测方法。该方法包括一个条件生成器(Condition Generator)和一个有条件预报器(Conditional Forecaster)。首先,条件生成器通过3D全局平均池化(GAP)和跨帧共享的线性层从观测值中提取条件,然后将其重新排布为并传递给有条件预报器以预测未来状态。具体来说,对应用线性层产生针对特定交通场景的自适应权重,并使用另一线性层基于这些权重预测未来状态。最终得到的未来状态特征被重新排布回包含时间轴的形式,作为未来环境的初步特征,并进一步通过细化器(Refiner)模块进行细化处理。****
**细化器(Refiner)**
鉴于预报器模块通过线性投影预测,其不可避免地缺乏帧间交互。为弥补这一缺陷,设计了细化器(Refiner)模块,旨在通过增强未来帧间的交互,并结合历史帧作为补充信息来提升预测结果的准确性。高效4D聚合模块(E4A)作为一个时空交互模块对于任何输入特征,其功能可表示为,其中是高效4D聚合模块的输出特征,代表变换函数。考虑到残差网络有助于细化和网络优化,可以将高效4D聚合视为一种特征的"细化变换",这也有助于降低前序模块的学习复杂度。
基于上述见解,进一步引入了一个重用高效4D聚合架构的细化器模块,用于精细化由预报器预测的未来状态以及由观察器输出的特征。具体来说,细化器应用于这两个特征,生成增强后的特征,以便后续进行占用和占用流的预测。
**实验**
网络的训练使用4块(至少1块)RTX4090 GPU,测试使用1块RTX4090 GPU(24G显存)。
实验结果表明,OccProphet在预测准确性和效率上均表现出色,在三个数据集上相对于最先进的Cam4DOcc模型,其占用预测准确性分别提升了4%∼18%,同时运行速度提高了约1.6倍,计算成本降低了58%∼78%。****
**定性实验**

图6:Cam4DOcc与OccProphet的定性实验
Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。****
**定量实验**

图7:不同表征形式之间的比较
采用E4A表征在性能上优于BEV和TPV表征,且参数更少,计算成本仅略有增加。

图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能
OccProphet在细粒度的4D占用预测上具有明显优势。

图9:模型复杂度的比较
与Cam4DOcc相比,OccProphet的参数量、内存占用和FLOPs均降低了58%-78%,同时OccProphet在未来帧的平均IoU上实现了相对4%的提升,并且其FPS达到了Cam4DOcc的2.6倍。
更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。
**结论**
本文提出了OccProphet,这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道,专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上,它在占用率预测方面比最先进的Cam4DOcc高出4%至18%,同时运行速度提高了2.6倍,计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。
##### #ChatVLA
显著超越现有SOTA!实现统一的多模态理解与机器人控制**VLA的痛点与解决方案**
人类拥有统一的认知能力,能够感知、理解物理世界并与之互动。为什么大语言模型无法复制这种整体理解能力呢?通过对视觉-语言-动作模型(VLA)现有训练范式的系统分析,发现了两个关键挑战:虚假遗忘,即机器人训练会覆盖关键的视觉文本对齐信息;任务干扰,即控制任务和理解任务在联合训练时相互竞争,会降低模型性能。为了克服这些限制,这里提出了ChatVLA,一个新颖的框架,它采用分阶段对齐训练,在掌握初始控制能力后逐步整合多模态数据,还使用专家混合(MoE)架构来最小化任务干扰。ChatVLA在视觉问答数据集上表现出色,在多模态理解基准测试中显著超越了最先进的视觉-语言-动作(VLA)方法。值得注意的是,它在MMMU基准测试中的性能提高了6倍,在MMStar基准测试中得分达到47.2%,并且与ECOT相比,其设计的参数效率更高。此外,与现有的VLA方法(如OpenVLA)相比,ChatVLA在25个现实世界机器人操作任务中表现更优。研究结果凸显了这个统一框架在实现强大的多模态理解和有效的机器人控制方面的潜力。
项目链接:https://chatvla.github.io/****
**行业介绍**
近年来,视觉-语言-动作(VLA)模型取得了显著进展,这类模型在很大程度上优先致力于让机器人掌握动作。在机器人控制任务上训练的模型擅长低级操作和物理交互,但在解读和推理图像、文本等多模态数据时却常常遇到困难。这看似矛盾,因为现代VLA架构是基于预训练的视觉-语言模型(VLMs)构建的。相反,在视觉-文本对上训练的VLMs展现出了出色的多模态场景理解能力,但却缺乏与环境进行物理交互的能力。这种二元性凸显了一个关键挑战:如何在不牺牲任何一个领域性能的前提下,通过对齐机器人动作和视觉-文本语义这些不同数据源,实现实体控制和多模态理解的统一。
我们的工作致力于探索如何统一一个端到端的神经网络,使其具备多模态场景理解、对话能力和物理交互能力。首先研究了现有的训练范式,评估它们实现统一的可行性。我们研究了VLA训练的三种数据设置:
第一,仅在包含机器人动作轨迹的专家演示数据上进行训练(这是最常见的方法,例如OpenVLA、TinyVLA、π0 );
第二,用推理短语扩充机器人数据以指导动作(类似于ECOT和DiffusionVLA);
第三,同时使用视觉-文本对和机器人数据进行联合训练(如RT-2)。
这里也分析了每种配置对模型平衡控制和理解能力的影响。实验表明,仅用机器人数据训练会完全侵蚀对话能力;添加推理数据能部分保留多模态理解能力;引入视觉-文本对则会显著削弱控制能力。这揭示了两个关键挑战:第一,VLA模型存在虚假遗忘问题,模型性能下降并非意味着预训练VLMs的知识完全丢失,而是模型内部表示与不同任务的对齐方式发生了变化。机器人动作与视觉-文本数据之间的对齐似乎很脆弱,在微调过程中容易被覆盖。第二,任务干扰问题,控制任务和理解任务的参数空间相互冲突,它们共享重叠的表示,在同时训练时会导致相互的性能下降。
为了解决这些挑战,我们提出了ChatVLA,这是一个在神经架构和训练策略方面都简单有效的框架,能让单个神经网络同时掌握理解和操作能力。我们受到课程学习的启发,提出了分阶段对齐训练,这是一种两阶段策略。模型首先掌握实体控制,然后逐步整合多模态数据, "重新激活" 冻结的对齐链接。此外,在MLP层引入了专家混合(MoE)。这使得两个任务可以共享注意力层(用于跨任务知识转移),同时隔离特定任务的MLP(以最小化干扰)。这一设计的灵感来自双编码理论,该理论认为人类大脑通过两个独立但相互关联的系统处理信息:一个用于物理技能,另一个用于语言和视觉实践。ChatVLA中共享的注意力层促进了理解任务和控制任务之间有益知识的交换,而单独的MLP层则独立处理所学知识。
我们从三个维度评估ChatVLA:对话能力(视觉问答)、一般多模态理解和一般机器人控制。在TextVQA和DocVQA等既定数据集上评估其对话能力,与现有的VLMs相比,ChatVLA取得了具有竞争力的性能。此外,ChatVLA在包括MMMU、MME和MMStar在内的一般视觉和文本基准测试中,展示出了强大的多模态理解能力。值得注意的是,与ECOT等最先进的VLA方法相比,我们的方法在MMMU上性能提高了6倍,在MMStar上的性能从0提升到47.2,并且在VLM骨干网络中使用的参数减少了3.5倍。最后在25个现实世界机器人任务上评估ChatVLA,这些任务涵盖了抓取、放置、推动和悬挂等多种技能,涉及浴室、厨房和桌面等多个环境。在这个多任务设置中,我们的方法优于OpenVLA等最先进的VLA方法。这些结果验证了方法的有效性,展示了单一统一方法在多模态理解和机器人控制方面的潜力。
ChatVLA贡献如下:
* 在严格的设置下深入分析了现有的VLA方法,展示了它们在实现令人满意的多模态理解和机器人控制性能方面的局限性;
* 引入了ChatVLA,这是一个简单而有效的框架,它在单个神经网络中统一了对话能力、多模态理解和机器人控制;
* 进行了广泛的实验,评估ChatVLA在各种问答和一般理解基准测试中的性能;
* 进行了广泛的现实世界机器人实验,涵盖了现实家庭环境(桌面、厨房和浴室)中的25个不同任务,展示了ChatVLA在现实世界机器人控制场景中的卓越性能。****
**相关工作**
**多模态理解**
多模态大语言模型(MLLMs)通过整合视觉和语言信息来实现整体场景理解,极大地推动了多模态理解领域的发展。MLLMs在需要跨模态对齐的任务中,如视觉问答(VQA)、图像字幕生成和空间推理,展现出了出色的性能。这一成功源于它们能够通过复杂的适配器设计将视觉特征映射到语义表示。然而,当前的MLLMs缺乏与物理世界的连接,无法与环境和人类进行交互。这项工作旨在填补这一空白,使视觉-语言模型也能具备行动能力。
****
**机器人学习中的视觉-语言-动作模型**
视觉-语言-动作模型(VLAs)是一个不断发展的研究领域,它以预训练的视觉-语言模型(VLMs)为骨干,实现语言理解和观察理解。这些方法通常对大型预训练VLMs进行微调,以预测机器人动作。这些方法在模拟和现实世界任务中都表现出了强大的性能。然而,现有的VLA模型尚未证明具备真正的多模态理解能力。基于我们的实验,发现这些模型缺乏这种能力。相比之下,我们的工作提出了一种统一的方法,使单个网络能够有效地处理多模态理解和机器人控制。****
**ChatVLA方法介绍**

**形式定义**
考虑机器人控制和多模态理解这两种不同的场景。在机器人控制场景中,我们通常构建一个演示数据集,其中每个演示由一系列状态-动作对组成。状态由观察(图像)和指令(文本)组成,即。我们可以将状态-动作对序列表示为:

其中每个元组表示时间步的状态和相应采取的动作,是演示的长度。这些演示通常由人类专家提供。
对于多模态理解和视觉对话任务,我们有一个数据集,其中每个数据样本由一个视觉图像和相应的文本形式的问题(或字幕)组成,即。这里,表示此类图像-文本对的总数。符号表示视觉-文本数据。
工作的总体目标是开发一个通用模型,它能够处理实体控制和多模态理解。对于实体控制,这涉及学习一个策略,该策略对给定当前视觉观察和文本指令的机器人动作的联合分布进行建模:。同时,对于多模态理解和视觉问答,模型应该捕捉给定视觉输入的文本(答案或字幕)的分布:。我们的目标是创建一个统一的模型,能够有效地学习这两种分布,使其在机器人控制任务和多模态理解场景中都能表现出色。
当前的VLA研究致力于开发更强大、更具泛化性的模型来学习视觉运动策略。一些方法探索类似思维链的推理来改进策略生成,而另一些方法则研究使用视觉-文本和机器人数据联合训练VLA模型。一些研究报告称在实验室环境中使用视觉-文本数据联合训练有好处,而另一些研究发现在现实世界场景中效果不佳。虽然有一些工作表明VLA可以保持对话能力,但没有研究深入探讨在应用VLA训练范式后,这种能力以及一般多模态理解能力是如何保留的。在接下来的部分,分析VLA的不同训练数据集设置,特别关注所得模型在多模态理解和现实世界机器人控制中的性能。目标是为构建能够同时实现这两者的统一模型提供实用指导。
****
**分析**
为了了解现有VLA模型在多模态理解和实体控制方面的能力,我们研究了三种不同的训练范式,每种范式使用不同的数据集:第一,仅用机器人数据训练,这是VLA中最普遍的方法,主要侧重于优化机器人控制性能;第二,用类似思维链的推理扩充机器人数据,旨在提供辅助信息,提高模型的泛化能力和机器人任务性能;第三,同时使用视觉-文本数据和机器人数据进行联合训练。后一种范式由RT-2开创,但由于专有数据和模型细节的原因,很难进行精确复制。在本次实验中,参照RT-2,将机器人数据与视觉-文本数据的比例设为3:1。
我们分析了VLA模型的这三种训练数据设置。具体来说,使用DiffusionVLA,这是一个具有代表性的VLA模型,它既支持通过自回归生成语言输出,也支持通过扩散模型生成动作。在六个具有代表性的基准测试中评估性能:其中四个侧重于视觉问答,另外两个对多模态大语言模型进行更广泛的评估,涵盖数学和OCR等任务。此外,在五个现实世界机器人任务中评估性能,这些任务涵盖了悬挂、拉动、抓取和放置等多种技能。按照DiffusionVLA的方法,生成机器人推理数据。对于视觉-文本数据,从LLaVA中随机抽取54k个图像-文本对。

**多模态理解和问答基准测试结果**:实验结果如图2所示。图的右下角显示了在六个基准测试中的性能,包括视觉问答(VQA)和一般理解任务。图的右上角显示了在五个现实世界机器人任务上总共进行112次试验的平均成功率。
右下角的表格包含了基础模型Qwen2-VL的结果。一些结果在意料之中。例如,仅在机器人数据上训练模型,在所有基准测试中的性能均为0。该模型完全失去了对话能力,被提问时只会输出无意义的内容。不出所料,与基础模型相比,使用视觉-文本对和机器人数据同时训练时,性能下降最小。有趣的是,即使推理数据中的推理短语具有高度结构化和模板化的特点,用包含推理的机器人数据进行训练也能将性能从0提升到不可忽视的水平。尽管推理短语相似且结构化,但明确让模型 "表达出来" 显著提高了问答甚至一般理解的性能。
**结论1**:观察表明,预训练的VLM组件似乎遭受了灾难性遗忘。仅用机器人数据训练会导致模型失去先前获得的对话和理解能力。然而实验表明,这并不一定意味着知识的完全丢失,而是由机器人数据导致的对齐错误。使用固定的推理模板进行训练似乎 "重新激活" 了视觉-文本对齐,使模型能够进行对话并展示理解能力。
**现实机器人多任务设置的结果**:进一步在现实机器人设置中评估了不同的方法。所有方法都在25个现实机器人任务上进行训练,这里选择了五个不同的任务,涵盖推动、抓取和悬挂等技能进行比较。然而,令人惊讶的是,仅用机器人数据训练的性能比加入推理数据更差。这证实了先前的发现,即利用视觉或文本思维链可以增强机器人模型的泛化能力。有趣的是,将机器人数据与视觉-文本数据联合训练导致现实世界任务成功率显著下降。
**结论2** :最初观察到在机器人数据中加入推理可以提高性能,这与双编码理论一致。该理论认为,身体运动技能和视觉-语言理解并非相互排斥,而是相互关联的,具有重叠的益处。然而,当在训练数据中加入视觉-文本对时,机器人控制的性能急剧下降。这表明,动作生成和理解所需的不同表示可能在共享参数空间中相互竞争。我们将这种现象称为部分任务干扰,需要仔细解决。一个统一的系统应该连接这两种数据类型,同时为每个任务实现可分离的表示学习。
****
**ChatVLA**
如前所述,在机器人策略数据上训练会干扰视觉-文本关系的学习。此外,仅在机器人数据上训练会削弱视觉-文本对齐,导致模型对话能力下降。因此,解决这两个挑战对于在单个VLA模型中成功统一这两个方面至关重要。这里将首先描述用于解决虚假遗忘的训练策略,然后概述方法的总体架构,以解决第二个挑战。

**分阶段对齐训练**:此前发现虚假遗忘是导致VLA失去聊天和理解场景能力的关键因素。由于预训练的VLM训练良好,在视觉相关任务中表现出色,因此直观地说,少量的视觉-文本对数据就可以重新激活聊天和理解场景的能力。相比之下,机器人控制任务的训练要复杂得多,因此优先开发一个在实体控制任务中表现出色的优秀模型。我们的训练策略简单而有效。首先在机器人数据上训练VLA模型。在这个训练过程中,我们还包括推理数据,以确保视觉和文本组件之间的持续对齐。一旦机器人数据训练完成,同时训练视觉-文本数据和机器人数据,以帮助模型在两个任务中都保持熟练程度。

**专家混合**:上面展示了使用分阶段对齐训练来解决虚假遗忘问题,使模型能够保留先前训练的VLM中的知识。然而,这种方法并没有完全解决任务干扰问题,因为模型仍然需要同时在视觉-文本数据和机器人数据上进行联合训练。我们引入专家混合来解决这个问题,如图4所示。给定作为第个块的输入。该输入可以属于或。值得注意的是,这里设计了一个双路由器,一个用于处理与多模态理解和对话相关的任务(),另一个用于学习机器人控制的表示()。输入首先通过多头自注意力机制,其中表示多头自注意力。然后将其输入到专家混合层,可以表示为:

然后将其与来自跳跃连接的输入相加。请注意,在第一阶段训练中,仅激活控制专家。
为了区分不同任务的输出,采用了不同的系统提示。比如,对于理解和对话任务,使用 "依据问题作答";对于控制任务,则使用 "预测机器人动作"。直观来讲,应用于多层感知器(MLP)层的静态专家混合(MoE)架构,可看作是一个高维特征提取器,它对共享参数空间进行划分。这使得每个任务(例如理解任务和控制任务)都能利用相当一部分专用神经元,进而让模型在这两个方面都表现出色。这种类MoE架构的一个关键优势在于,在推理过程中,仅有一条路径会被激活,从而保留了基础模型的参数。我们的研究结果表明,这种简单直接的方法能够同时提升模型的理解能力、对话能力和控制性能。 为什么要共享自注意力层呢?目前一种常见的解决方案是使用注意力混合机制来学习特定任务的表示。然而,基于实验我们认为理解任务和机器人控制任务共享的一些表示对两者都有益。例如,在典型的机器人控制场景中,模型需要理解场景、识别物体、确定物体位置,然后将这些信息转化为动作。这些高维表示具有相似的语义概念。因此,这两个任务之间的相互关联性,对于同时提升理解和控制方面的性能至关重要。****
**实验分析** **多**
**模态理解和视觉问答结果**
使用Vlmevalkit在TextVQA、DocVQA、InfoVQA、AI2D、ChartQA、MTVQA和RealworldQA数据集上评估ChatVLA的视觉问答能力。还针对为多模态大语言模型(MLLMs)设计的更具挑战性的基准进行了测试,即MMMU、MMStar、MME、OCRBench、HallBench和MMBench。如表1所示,ChatVLA在多个基准测试中与现有的视觉语言模型(VLMs)相比表现出了竞争力。值得注意的是,在视觉问答任务中,我们的框架在TextVQA上取得了71.2的显著成绩,大幅超越了当前最先进的视觉语言动作(VLA)方法。与ECoT和DiVLA相比,它在这些基线模型上的相对提升分别达到了9.2倍和9.5倍。该模型在需要复杂跨模态整合的多模态推理任务中表现出特别强的能力。在MMStar基准测试中,ChatVLA获得了37.4的分数,与DiVLA和ECoT相比,性能分别提升了2.2倍和6.9倍。
**真实机器人任务结果**
ChatVLA的实体控制性能在25个真实世界的操作任务上进行评估。根据语言指令的粒度,所有这些评估任务可分为三类。我们在一个真实机器人上进行了528次试验,以评估该模型的能力。
* **直接提示的长时程任务**:模型被要求直接根据语言指令执行任务(例如,"整理玩具")。评估的四个任务均在桌面设置的玩具场景中完成。此类具有挑战性的任务包括任务1,其中所有玩具以随机姿势放置在不同位置;以及任务3,它需要整合打开、拾取和关闭这三种不同的技能。在所有评估场景中,ChatVLA在直接根据高级描述执行任务方面展现出显著优势。该方法在多步序列中保持一致的性能,在任务1中平均成功长度达到0.54(比Octo高6.75倍),并且在任务3的三步序列中成功率达到完美。
* **带有高级规划器的长时程任务**:模型接收指定当前子任务目标的中间命令(例如,"拾取物体并放置到目标位置")。此评估的主要挑战来自子任务之间的显著差异,这些差异包括:(1)不同的物体类型(例如,盘子、杯子、面包);(2)多种所需技能(例如,拾取 - 放置、翻转);(3)不同的位置高度(例如,顶部/底部架子位置),如图1右下角面板所示。这些差异共同构成了一个测试平台,用于评估模型的组合推理能力,特别是其整合物体操作、空间推理和干扰适应的能力。这一要求在实验结果中得到了明显体现,如表3所示,ChatVLA在所有任务配置上均优于OpenVLA和Octo。
* **跨技能多任务**:这些任务需要在各种真实世界环境中整合多种操作技能(例如,拾取、放置、推动和悬挂),具体分为三个测试领域:浴室场景(任务14 - 17)、厨房环境(任务18 - 19)和桌面配置(任务20 - 25)。如表4所示,ChatVLA在所有任务类别中均比Octo和OpenVLA表现更优。该模型在具有挑战性的浴室和厨房任务中表现尤为出色,在这些任务中,机械臂的操作空间范围受到严重限制。这种实验设置在模型评估过程中引入了大量安全考虑因素,从而对评估模型的操作精度和系统稳健性提出了严格要求。
**消融研究**
* **哪种视觉语言数据更优?**:在第二阶段,使用LLaVA - 1.5数据集进行联合训练,这使得模型在视觉问答(VQA)和多模态大语言模型基准测试中与Qwen2 - VL相比能够取得相当的结果。然而,我们认为剩余的性能差距归因于所使用的视觉文本数据的局限性。为了进一步探索这一点,对ChatVLA和Qwen2 - VL在MMMU数据集上的结果进行了深入分析,如图5所示。MMMU数据集分为六个类别,ChatVLA在其中三个类别(艺术、医学和社会科学)中的性能略低于Qwen2 - VL。对相应子类别结果的更仔细检查显示,性能差异主要出现在五个特定领域:艺术理论、检验医学、药学、文学和心理学。这些领域涉及相对有限的专业知识,难以获取。在查看LLaVA数据集的组成时,惊讶地发现,其包含COCO、GQA、OCR - VQA、TextVQA和VisualGenome在内的子数据集缺乏这些领域所需的专家知识,这可能是观察到性能下降的原因。这一发现也凸显了ChatVLA的巨大潜力:通过使用更合适的专业数据进行训练,相信可以在多模态理解方面取得显著更好的性能。
* **视觉文本数据与机器人数据的合适比例是多少?** :在与视觉文本数据进行联合训练时,遵循ECoT中讨论的设置,将视觉文本数据与机器人数据的总体比例设置为1:3。然而,其他数据比例对多模态理解和机器人任务是有益还是有害仍需关注。因此,在相同的步数下,将联合训练中视觉文本数据与机器人数据的比例分别修改为1:1和3:1。三种设置的结果如表5所示。令人惊讶的是,较少的视觉文本数据导致了更好的性能。这与前面的分析一致,即使是有限数量的视觉文本数据也足以重新激活视觉文本对齐,并弥合基础视觉语言模型(VLM)与视觉语言动作(VLA)模型之间在现实世界交互能力方面的差距。****
**参考**
\[1\] ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
##### #Reasoning模型复现R1经验综述
**小小梦想的R1模型(复现R1)**
作者复现R1基于HF的open-r1,底层使用trl库,在GSM8K数据集上进行了复现,使用了4张40G的A100和Qwen2.5 1.5B-Instruct模型。
代码在https://github.com/Mryangkaitong/deepseek-r1-gsm8k
****
**奖励:**
* 格式奖励参考了Logic-RL的工作,格式检查了以下内容:
* `