我自己的原文哦~https://blog.51cto.com/whaosoft/13383340
#世界模型如何推演未来的千万种可能
驾驶世界模型(DWM),专注于预测驾驶过程中的场景演变,已经成为追求自动驾驶的一种有前景的范式。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境互动。在这篇综述中,我们提供了DWM最新进展的全面概述。我们根据预测场景的模式对现有方法进行分类,并总结了它们对自动驾驶的具体贡献。此外,还回顾了高影响力的数据库和针对DWM研究范围内不同任务的各种指标。最后,我们讨论了当前研究的潜在局限性并提出了未来方向。本综述为DWM的发展和应用提供了宝贵的见解,促进了其在自动驾驶中的更广泛应用。
简介
世界模型旨在基于过去的观察和动作预测未来的观察结果。在自动驾驶中,大视野和现实世界驾驶场景的高度动态特性带来了独特的挑战。然而,驾驶世界模型(DWM)通过促进准确的场景演变预测,在应对复杂环境中发挥了关键作用。最近,由于其在确保安全可靠的自动驾驶方面的重要作用,DWM受到了越来越多的关注。

如图1所示,DWM通常涉及预测场景演变,即根据历史观察生成未来场景。在此基础上,大多数方法可以进一步控制场景演变以符合给定条件或输出基于观察和预测的响应。由于自动驾驶需要处理多种数据类型,DWM已经产生了预测不同模式场景的变体。一些方法利用2D图像中的语义信息,而其他方法则学习3D点云或占用率中的空间几何和精确动力学。此外,一些方法,我们系统地将其归类为无场景范式,优先考虑潜在状态或多智能体行为,而不是详细场景。
实现自动驾驶的道路将面临诸如高数据获取成本、动态环境的复杂性以及管理罕见案例等挑战。DWM可能通过改进未来状态预测的规划、用多样化的合成数据丰富训练数据集,以及通过可扩展的预训练增强下游任务,为这些问题提供实用的解决方案。这些发展突显了DWM在该领域的多功能性和有效性。
本文全面调查了相关工作。具体而言,本文的贡献可以总结如下:
- 我们全面回顾了DWM的最新进展,按预测场景的模式对方法进行分类,并概述了DWM在自动驾驶中的应用。
- 我们对当前的局限性进行了批判性分析,并概述了有前景的未来研究方向,为研究社区提供了宝贵的见解,并促进了DWM的持续发展。
我们注意到,最近出现了与DWM相关的综述,其中一些主要关注通用世界模型,而其余的未能提供DWM应用的详细分类。相比之下,本文不仅介绍了近期方法的系统分类,还提供了DWM多样化应用的全面总结,旨在理解当前进展并探索未来方向。
驾驶世界模型
驾驶世界模型(Driving World Models, DWM)所预测的场景涵盖多种模态,包括图像、点云和占据栅格(occupancy),这既带来了独特优势,也带来了挑战。最近的进展越来越侧重于利用互补的多传感器数据,以发挥各个模态的优势,同时减轻其固有局限性。此外,无场景范式(scene-free paradigms)探索在潜在空间内进行预测,或专注于对复杂的多智能体交互进行建模。表1概述了近期的方法。本节从各种预测模态的角度介绍DWM的最新进展。

2D场景演化
驾驶世界模型(DWM)利用先进的生成技术(如自回归Transformer和扩散模型)来预测真实的二维场景演化,同时确保符合物理规律。
GAIA-1率先将场景演化预测表述为下一个标记预测任务,并使用扩散解码器,系统地捕捉驾驶场景中的时空动态和高级结构。相比之下,DriveDreamer推进了用于多模态控制的条件扩散框架,并将DWM范式扩展到合成数据生成。在这些基础方法之上,后续的DWM研究主要集中在提高场景演化预测的保真度、一致性和可控性。
生成场景的保真度对于确保真实世界驾驶场景的物理合理模拟至关重要。Vista采用稳定的视频扩散技术,并引入新颖的损失函数来捕捉动态行为,同时保持结构完整性,实现高分辨率和高保真度的场景生成。此外,它通过纳入多个参考帧来确保动力学合理。
DWM预测的场景演化应准确反映三维世界,确保每个物体都有合理的三维位置和空间关系,同时整个场景表现出空间连续性。通过分解联合建模,以相邻视图为条件预测中间视图,Drive-WM显著提高了视图之间的一致性。此外,DrivePhysica引入3D框作为条件输入,以增强对空间关系的理解,加强空间一致性,并改善对遮挡结构的理解。另一方面,WoVoGen预测明确的世界体(world volumes)以指导多视图视频生成,确保世界内和传感器间的一致性。类似地,NeMo和GEM将三维预测任务纳入其框架,而BEVWorld通过整合多传感器数据输入进一步拓展了这些工作。
时间一致性在使DWM能够有效捕捉场景的演化动态方面起着关键作用。确保预测序列中帧之间的连贯过渡对于反映现实场景演化至关重要。最近的进展通过架构创新来应对这一挑战。例如,InfinityDrive引入了一种多分辨率时空建模框架,在训练过程中逐步扩大时间感受野。通过集成旨在保留长程时间依赖关系的记忆机制,这一方法得到了进一步增强。与此同时,DrivingWorld通过提出一系列技术,包括时间感知标记化、下一状态预测、随机标记丢弃和平衡注意力策略,解决了自回归方法中的时间一致性问题。这些创新共同显著提高了在动态场景理解中对时间一致性进行建模的能力。
一个合理的DWM在生成未来场景时应适应特定要求。如表1所示,控制条件大致分为两类:1)低级条件,如动作(自车信息)、轨迹(坐标或位移)和布局(物体放置),为自车运动和物体定位设定精确规范。2)高级条件,如文本(指令或描述)和目的地(车辆到达位置),不仅要求实现指定目标,还需要创建逻辑中间步骤。一些工作有效地整合了低级或高级控制条件来生成未来场景,产生合理的输出响应,如驾驶动作、未来轨迹和文本。其中,GEM平衡两种条件类型方面表现出色,生成的驾驶视频严格遵循指定轨迹,同时实现向期望位置的自然移动。相反,DriveDreamer-2利用大型语言模型从高级文本输入中导出各种低级条件,显著增强了生成图像的多样性,并提供了用户友好的生成过程。请注意,控制条件和输出响应也广泛应用于3D和无场景范式中。
总之,DWM利用生成技术合成具有时空一致性和物理合理性的逼真二维驾驶场景。这些框架有效地提高了真实感、可控性和稳定性,实现了对场景演化的可靠预测。
3D场景演进
三维数据表示本质上保留了结构一致性、详细的几何信息和精确的空间关系,使得三维场景演化预测成为驾驶世界模型(DWM)的一项重要任务。在实践中,通常使用两种主要类型的三维数据,即占据栅格和点云。
占据栅格场景演进
占据栅格提供了几何一致的体素建模和结构化的空间编码,这使得占据栅格特别适合于场景演化建模,并在各种方法中得到广泛应用。
OccWorld使用时空变换器从历史观测中生成未来场景和自车姿态标记,并通过空间混合实现全局一致的场景预测。随后,OccLLaMA集成了多模态大语言模型作为核心架构,而RenderWorld分别对空气网格和非空气网格进行标记化,以进行细粒度的三维场景建模。基于扩散的方法进一步提高了可控性和生成质量。OccSora能够根据任意轨迹预测四维占据栅格场景演化。DOME采用连续的类似变分自动编码器(VAE)的标记器来保留复杂的空间信息。考虑到占据栅格的高计算需求,最近的方法试图提高效率。DFIT-OccWorld仅预测动态体素流,同时通过姿态变换计算静态体素。类似地,GaussianWorld在高斯空间中明确地对场景演化进行建模,专注于变化而不是重建整个场景。
由于占据栅格不能直接从传感器获取,从图像重建占据栅格至关重要。DWM将这一三维预测任务扩展到四维,即时空预测。一种直接的方法是集成Img2Occ模块,但这可能会导致误差累积。然而,最近的进展旨在直接从二维输入推断三维世界的时空演化,实现语义、三维结构和时间动态的协同学习。DriveWorld在预测场景动态时间变化的同时传播静态空间上下文。通过从多视图视频中学习时空表示,它实现了精确的占据栅格预测。此外,Drive-OccWorld将规划器与DWM相结合,利用基于运动感知的鸟瞰图(BEV)序列作为中介,直接从多视图图像预测占据栅格和流。这种集成为规划器提供了丰富的先验信息,从而提高了规划过程的安全性和准确性。
除了从图像重建占据栅格外,一些方法还从点云导出占据栅格伪标签,实现自监督训练。例如,UnO通过从未来激光雷达扫描中采样正负例来生成连续的占据场,实现对 点云的自监督学习。类似地,UniWorld和NeMo通过对点云进行体素化生成占据栅格伪标签。UniWorld融合多帧点云生成伪标签并学习时空动态,而NeMo进一步集成图像预测和运动流模块以增强体素表示,提高规划性能。
点云场景演化
点云通常由激光雷达传感器捕获,提供了三维环境的精确几何表示。然而,其稀疏和无结构的性质给生成任务带来了重大挑战,使得有效利用点云进行场景建模和预测变得复杂。Copilot4D采用矢量量化变分自编码器(VQ-VAE)标记器来处理复杂的观测,并通过利用改进的离散扩散采用并行推理加速方法。此外,LidarDM通过结合静态场景和移动物体提供基于布局感知的点云视频生成。
视觉点云预测(visual point cloud forecasting)不是直接输入点云,而是试图仅使用历史视觉图像预测未来点云演化。ViDAR提出将视觉点云预测作为一种可扩展的预训练任务,并探索语义、三维结构和时间动态的融合。最近,HERMES出现,将视觉点云预测与语言任务相结合,以增强生成和场景理解能力。尽管ViDAR使用了更长的历史视野和先进的潜在渲染模块,但HERMES的性能仍显著优于它。
多传感器数据融合已成为自动驾驶系统发展的关键趋势,因为它能够将二维数据的高分辨率细节与三维数据的精确空间几何信息相结合。MUVO将多模态数据组合成一种与传感器无关的几何表示,通过图像、占据栅格和点云实现准确的场景建模和演化预测。类似地,BEVWorld将图像和点云合并为统一的鸟瞰图(BEV)表示,并通过扩散预测未来表示,随后使用基于渲染的方法重建多传感器数据,实现自监督学习。相比之下,HoloDrive采用两个单独的模型并对齐它们,以联合生成多相机数据和激光雷达数据,确保二维和三维空间之间的一致性。
总体而言,DWM将生成技术扩展到三维场景演化,利用占据栅格和结构化表示来确保空间一致性,同时集成生成技术进行动态预测。它们通过多传感器融合增强了场景理解能力,能够更准确、更稳健地预测复杂场景的演化。
无场景范式
除了常用的图像、点云和占据栅格预测外,一些方法还探索了无需详细场景的预测。例如,实时自动驾驶系统优先考虑潜在世界状态转换,而行为模拟框架则强调以智能体为中心的运动动力学。我们将这些方法系统地归类为无场景范式。
潜在状态
与原始感官数据相比,潜在状态提供了一种高效的表示,能够无缝集成到决策过程中,并增强在各种驾驶环境中的泛化能力。基于强化学习的规划器通常利用潜在DWM,它能提供准确而密集的奖励、高效的并行训练和可解释的输出。监督学习也受益于对潜在状态的预测。例如,LatentDriver将预测的潜在状态和可能的行动建模为混合分布,捕捉决策的随机性,而LAW利用自监督潜在特征来增强端到端驾驶能力并提高效率。
多智能体行为
多智能体行为预测专注于预测场景内所有智能体的运动。TrafficBots探索了虚拟智能体(bot agents)行为的真实性。每个智能体根据其相应的目的地学习独特的 "个性",并从鸟瞰图(BEV)视角预测行动。类似地,CarFormer将每个对象建模为自监督的槽表示(slot representation),其中隐含了驾驶所需的必要信息。相比之下,AdaptiveDriver预测周围智能体的独特行为模式,随后展开相应的DWM来模拟它们的行为。
无场景范式超越了二维和三维表示。潜在状态提高了效率和泛化能力,而基于多智能体行为的模型捕捉了交互以降低风险。这些方法共同提高了自动驾驶系统的通用性。
应用
驾驶世界模型(Driving World Model, DWM)是一种自监督、数据驱动的方法,通过训练来预测未来场景的演变,部分方法仅需极少的注释数据。

对生成任务的广泛研究使DWM能够用作模拟器并生成数据。此外,DWM可以直接为决策过程和训练流程提供支持,从而增强自动驾驶系统的能力。在本节中,我们将总结DWM的应用,重点阐述世界模型对推动自动驾驶发展的贡献。
仿真模拟
自自动驾驶研究初期以来,仿真模拟就一直是训练和评估驾驶模型的关键工具,并且已经取得了显著成果 。然而,传统模拟器面临着诸多挑战,比如场景多样性有限,以及模拟环境与现实世界之间存在差距。DWM凭借其数据驱动的生成式模拟能力,有望解决这些问题。如图2(a) 所示,DWM能够基于各种输入形式模拟驾驶过程,严格遵循给定指令。这些条件包括但不限于车辆动作和场景描述,这不仅让模拟器使用起来更加便捷,还使其能够自主生成更精细的结构和多样化的场景细节。
DWM在逼真度、一致性和可控性方面取得了显著进展,这些对于可靠的现实世界模拟至关重要。Vista 能够提供高逼真度且高度可控的视频模拟,有助于进行动作评估。与之相关的,GEM 进一步提升了模拟质量,可以精确控制物体动力学、轨迹和人体姿态。同样,多项研究尝试在3D空间中模拟驾驶场景的演变 ,并展现出良好的前景。除了视觉上的真实感,近期的工作还强调对动作逼真度的评估,新提出的评估框架ACT-Bench 就是一个例证,它引入了强大的基线框架,显示出与动作指令的高度契合。此外,TrafficBots 对虚拟智能体行为的真实性进行了研究,进一步丰富了模拟场景。
基于强化学习的方法尤其受益于基于DWM的模拟的灵活性。Think2Drive 通过在潜在状态空间中进行推演,实现了高效的并行训练,避免了与复杂物理模拟器的交互。随后,Imagine2-Drive 利用高逼真度的DWM来模拟和评估多步轨迹,显著提升了规划性能。
DWM将高逼真度的生成能力与精准的可控性相结合,不仅缩小了模拟环境与现实世界的差距,增加了模拟场景的多样性,还实现了并行交互。这些进展极大地推动了自动驾驶领域的仿真模拟发展。
数据生成
与注重条真实的仿真不同,数据生成强调数据的多样性和保真度,旨在实现更广泛、更全面的场景覆盖,同时缩小与真实世界数据的差距。图2(b) 表明,DWM可以使用相同的注释生成多样化的驾驶视频,这显著提高了数据标注的多样性。
事实证明,DWM在利用合成数据扩充数据集方面非常有效 。例如,DrivePhysica 可以合成无限数量的高保真且多样化的驾驶视频,而LidarDM 能够生成高质量的激光雷达数据。值得注意的是,HoloDrive 展示了合成对齐的多模态数据的潜力。这些合成数据对下游任务(如3D检测)有促进作用,体现了DWM的可控性和高生成质量。虽然这些方法通常依赖于真实世界的注释来合成数据,但近期的进展 也在合成具有新颖轨迹的驾驶视频,缓解了真实世界数据集中的分布不均衡问题。
鉴于目前高质量自动驾驶数据集在规模上的局限性,DWM显示出利用合成技术获取大量高质量驾驶数据的潜力,为自动驾驶研究的推进提供了支持。
前瞻性驾驶
预瞻性驾驶强调通过对未来状态的准确预测来提升车辆的规划能力。通过预测周围智能体的行为和环境动态,自车可以主动探索不同行动的结果,从而在复杂驾驶场景中提高安全性和适应性。
如图2(c) 所示,典型的预瞻性驾驶方法是利用DWM预测多种潜在行动的结果,然后对这些预测进行评估,以优化最终行动决策。例如,DriveWM 将DWM的预测结果与奖励函数相结合,以选择最佳轨迹,而Drive-OccWorld 则将鸟瞰图(BEV)嵌入引入规划器,进一步优化规划。同时,ADriver-I 将多模态大语言模型和视频扩散模型相结合,联合预测视觉 - 行动(描述自车信息的图像和文本)对,展现出长时规划的潜力。一些方法还将预测和规划集成到一个统一的模型中,在实现出色性能的同时提供了更大的灵活性 。
准确的预测有助于提升驾驶性能,另一方面,使预测结果与未来观测保持一致也被证明是有效的 。此外,AdaWM 利用预测状态与未来状态之间的差异来指导微调,提高了对陌生环境的适应性。
预瞻性驾驶的成功表明,DWM不仅可以通过仿真模拟和数据生成间接促进自动驾驶,还能积极参与决策和优化过程,实现预测与规划的协同效应。
4D预训练
预训练已在多种方法中得到了实证验证。然而,传统的预训练方法往往忽略了4D动态因素,而这对于自动驾驶至关重要。DWM旨在预测场景演变,这一目标天然适合自监督学习和大规模预训练。如图2(d) 所示,DWM利用大量未标记的多模态数据进行4D预训练,提升了一系列下游驾驶任务的性能。
现有的大多数任务都强调以视觉为中心的预训练,旨在通过从多视图图像数据中学习4D场景演变来捕捉空间和动态感知。为了利用大规模未标记的图像 - 点云对,UniWorld 从点云生成占据栅格伪标签,用于4D预训练。为了消除对伪标签的依赖,ViDAR 引入了一种基于视觉点云预测的新方法。通过提出潜在渲染算子,该方法保留了所学鸟瞰图(BEV)表示的判别性3D几何信息,确保了与下游任务的无缝集成。此外,NeMo 将RGB重建和占据栅格预测相结合,学习能够同时保留3D几何和语义信息的4D体素表示。为了捕捉时空动态,DriveWorld 分别处理时间动态和静态场景,并采用任务提示以适应各种下游任务。
近期的方法也在探索以点云为中心的预训练。UnO 通过预测由未来点云生成的连续4D占据场,学习几何结构、动力学和语义信息。相比之下,AD-L-JEPA 通过重建掩码嵌入进行预训练,实现更简单,且学习到的表示更强大。最后,BEVWorld 探索对多传感器数据进行预训练,将图像和点云编码为统一的鸟瞰图(BEV)表示。
总体而言,DWM通常通过自监督学习进行4D预训练,捕捉时空动态,减少对注释的依赖,并在广泛的任务中提升性能,为自动驾驶的发展铺平了道路。
评估
由于驾驶世界模型(DWM)缺乏标准化的基准测试,全面了解现有资源和评估方法对于推动该领域的发展至关重要。在本节中,我们将总结自动驾驶领域的主要数据集,尤其是针对DWM提出的数据集,并讨论为各种基准测试设计的评估指标。
数据集
自动驾驶的发展在很大程度上依赖于高质量的数据集,这些数据集需要涵盖多样化和全面的场景。在表2中,我们回顾了自动驾驶研究中最具影响力的数据集,重点关注其规模和多样性。值得注意的是,DrivingDojo是专门为训练具有复杂驾驶动力学的驾驶世界模型而设计的。

评估指标
在自动驾驶领域,驾驶世界模型(DWM)主要通过基于视频生成的方法进行训练,并应用于各种与驾驶相关的任务。这些任务的多样性使得单一指标难以全面评估所有研究中的模型性能。因此,该领域的研究人员会根据具体的任务和研究领域选择专门的评估指标。表3概述了广泛使用的评估指标及其相应含义。

这些评估指标对不同的DWM进行了深入评估,为进一步的研究提供了指导。然而,某些方面,如一致性和可控性,仍有待深入研究。为了解决这些局限性,一些研究提出了新的评估指标。例如,为了评估可控性,一种广泛采用的方法是比较训练好的检测器在生成数据上的输出与相应条件,或者与同一检测器在真实数据上的预测结果。此外,关键点匹配(KPM)和平均点到平面能量被引入,分别用于评估多摄像头视频和激光雷达视频的一致性。
局限性与未来工作
尽管驾驶世界模型(DWM)的研究取得了显著进展,但仍存在一些局限性,可能会阻碍其充分发挥潜力。此外,使DWM适用于各种自动驾驶应用仍是一项持续的挑战。在本节中,我们将深入讨论当前的局限性,并概述未来研究和发展的潜在方向。
数据稀缺
收集驾驶数据成本高昂,尤其是对于长尾但对安全至关重要的场景,这导致数据集有限且分布不均。近期的研究在扩展和多样化驾驶视频数据集方面取得了进展。然而,获取高质量的3D数据和对齐的多传感器数据集仍然具有挑战性。虽然DWM在合成数据以改进下游任务方面显示出了潜力,但如何扩充数据以提升DWM本身仍是一个未解决的问题。
效率
生成任务对DWM的推理效率提出了挑战,增加了计算成本和延迟,这阻碍了其在实时驾驶应用中的使用。详细的4D场景表示进一步加大了对计算和内存的需求。近期的研究强调,将场景解耦是一种有效的策略。此外,探索更高效的表示形式是一个切实可行的研究方向。
可靠的仿真
一个关键问题是如何确保在复杂模拟(例如长时推演和剧烈视角变化)和多变的驾驶情况(例如多样化的交通和天气)下,DWM的性能不会显著下降。这对模型的鲁棒性和泛化能力提出了重大挑战。为了解决这些问题,一些研究提出了部分解决方案。例如,DrivingDojo提供了多样化的驾驶视频数据集,AdaptiveDrive开发了适应不同环境的DWM,InfinityDrive专注于提高长期性能。尽管取得了这些进展,但这仍然是一个极具挑战性和影响力的研究领域,未来需要进一步探索和创新。
另一个挑战是模型产生的幻觉和不符合物理规律的情况(例如车辆突然出现和速度估计错误),即使在正常情况下也可能导致危险的决策。DrivePhysica通过引入额外条件来解决这个问题,而具有跨模态验证的多模态场景输出则是另一种可行的解决方案。
统一任务
现有的DWM主要支持预测任务,通过预测场景演变来隐含地理解场景,而不是通过对这一关键能力的明确监督。结合语言任务为解决这些局限性提供了一个有前景的方向。例如,图像字幕和问答(QA)等任务促进了全面的理解,而因果推理则有助于学习支配现实世界演变的基本原理。此外,预测和规划的无缝集成,即端到端的DWM,可以充分发挥框架的潜力。
多传感器建模
自动驾驶系统主要依赖多传感器配置,不同模态的数据相互补充。因此,基于单模态场景的DWM不太适合这类系统。尽管一些研究在多模态数据集成方面取得了进展,但该领域仍有很大的探索空间。此外,考虑到对齐的多传感器数据成本高昂,利用广泛可用的未对齐甚至未配对的多传感器数据是一个有价值的研究方向。
攻击与防御
对抗攻击很容易导致严重的事故,对驾驶安全构成重大威胁。这些攻击涉及精心制作的对人类不可察觉的对抗补丁,使得检测和缓解变得尤为困难。尽管其潜在影响巨大,但目前针对DWM的对抗攻击研究仍然不足。因此,研究此类攻击并开发有效的防御策略具有至关重要的实际意义。这些努力对于推动DWM在现实世界自动驾驶应用中的安全可靠部署至关重要。
结论
驾驶世界模型(DWM)日益被视为自动驾驶系统架构中的一个基本组成部分,旨在通过预测未来演变来改进决策。在本文中,我们探讨了DWM的具体贡献,不仅按预测场景模态进行了系统的概述,还总结了DWM的应用及其对自动驾驶的影响,并回顾了常见的数据集和评估指标。我们进一步深入研究了当前的局限性,并指出了一些有前景的未来研究方向,以克服这些挑战并推动该领域的未来探索。我们相信,这项综述将为早期研究人员提供DWM领域关键进展的快速概述。
参考
[1] The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey
#Topo2Seq
通过拓扑序列学习增强拓扑推理
论文链接:https://arxiv.org/pdf/2502.08974
摘要
从透视图(PV)中提取车道拓扑对于自动驾驶的规划和控制至关重要。这种方法无需依赖高精度(HD)地图即可为自动驾驶车辆提取潜在的可行驶轨迹。然而,DETR框架检测的无序性质和较弱的远程感知可能导致车道段端点错位和拓扑预测能力受限。受语言模型学习上下文关系的启发,道路连接关系可以被显式建模为拓扑序列。我们介绍了Topo2Seq,一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心部分是在车道段解码器和拓扑序列解码器之间的随机顺序提示到序列(prompt-to-sequence)学习。双解编码器分支同时学习从有向无环图(DAG)和包含地理元信息的车道图中提取的车道拓扑序列。随机顺序提示-序列学习从车道段解码器预测的车道图中提取无序关键点,然后将其输入拓扑序列解码器的提示设计中以重建有序和完整的车道图。通过这种方式,车道段解码器能够从拓扑序列解码器中学习强大的远距离感知和精确的拓扑推理。值得注意的是,拓扑序列解码器只在训练过程中引入,而不影响推理的效率。在OpenLane-V2数据集上的实验评估表明,Topo2Seq在拓扑推理方面具有最先进的性能。
介绍
近年来,自动驾驶中的车道拓扑推理受到越来越多的关注。这是因为自动驾驶传统上依赖于离线高清地图来提供道路信息。然而,道路状况可能是不确定的和具有挑战性的,过时的离线高清地图对自动驾驶汽车来说可能是灾难性的。单纯依赖这些地图并不足以满足高级别自动驾驶的高级需求。
为了解决这些问题,自动驾驶车辆需要进行车道拓扑推理,这涉及从环视图像中实时感知周围道路并提取道路中心线的几何位置和拓扑关系。因此,车道拓扑推理对于端到端自动驾驶中的轨迹预测和规划至关重要。
最近关于车道拓扑推理的研究已经将中心线拓扑转化为车道图。这些端到端网络被设计用来预测以有序点集为表征的线段和由邻接矩阵表示的拓扑关系。然而,这些方法并没有显式地建模每个车道段之间的关系,而是依赖于MLP来确定每个查询之间的连接概率。由于DETR框架中的弱感知和无序检测特性,简单的MLP难以有效地学习车道之间的连通性。因此现有的方法存在多个弱点,如图1(a)所示。

图1:以往方法(a)和Topo2Seq(b)的比较:由于Deformable-DETR每个查询的采样位置有限并且检测的无序性,现有方法表现出严重的弱点。(b) Topo2Seq采用了一种随机提示-序列学习策略,通过拓扑序列学习增强了车道段感知和拓扑推理。
在语言模型中,序列学习可以在保持正确顺序的同时捕获长文本中的上下文关系。因此,受语言模型的启发,将车道图表示为序列,可以显式地捕获车道的几何位置和拓扑关系。然而,在序列到序列(sequence-to-sequence)的学习方法中,自回归模型依赖于先前的预测来产生后续输出,由于需要重复推理,导致相当低的推理效率(约0.1FPS)。 在本文中,我们提出了Topo2Seq,一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq采用了一种双解码器结构,包括一个车道段解码器和拓扑序列解码器。拓扑序列解码器预测从有向无环图(DAG)中提取车道拓扑序列,而车道段解码器提取包含几何信息的车道图。然后随机提示-序列学习用于从车道段解码器预测的车道图中提取无序的关键点。这些关键点被输入拓扑序列解码器的提示设计中,从而能够重建一个有序和完整的车道图。在这种情况下,车道段解码器通过共享的编码器从拓扑序列解码器中获得了强大的远程感知和精确的拓扑推理能力,如图1(b)所示。值得注意的是,拓扑序列只在训练中引入,并不影响推理效率。
本文的贡献可以概括为以下:
- 我们提出了Topo2 Seq,一个新的双解码器训练框架,通过利用拓扑序列学习来增强拓扑推理。
- 我们显式地将车道图建模为序列来捕获车道的远距离几何位置和拓扑关系。
- 我们引入了一种随机顺序提示-序列学习机制,使车道段解码器从拓扑序列解码器中获得鲁棒的远程感知和准确的拓扑推理能力。
- 在基准数据集 OpenLane-V2上进行的大量实验证明了Topo2Seq的优秀性能。
方法详解

图2:Topo2Seq的框架。
Topo2Seq由三个主要组件组成。首先,通过图像主干、FPN和BEVFormer对环视图像进行处理,生成鸟瞰图(BEV)特征。然后,车道段解码器预测车道图。从预测的车道图中提取的首尾点被输入拓扑序列解码器以构造关键点提示,这些提示随后并与边缘序列连接。拓扑序列解码器推断离散关键点之间的关系,并将其重构为一个连贯的车道图。通过这样,拓扑序列解码器增强了BEV特征,改进了远距离感知能力,从而帮助车道段解码器进行拓扑推理。
- 车道段解码器
我们将一组实例级的查询表示为 ,其中是预设的查询数,通常大于车道图中的中心线数。这些查询被输入车道段解码器以获得更新后的查询:

其中LaneDec表示车道段解码器。在每个车道段解码器层内,车道查询通过自注意模块、车道注意模块和前馈网络依次进行更新。
- 预测头
我们使用MLPs(多层感知机)来生成3D车道坐标和拓扑矩阵A。车道间的拓扑关系预测为:

其中MLP是相互独立的。为了提供更详细的车道图表示,我们不仅预测拓扑结构,同时预测了左右车道边界偏移量,边界类型以及人行横道。
- 拓扑序列解码器
我们参考Pix2Seq设计了拓扑序列解码器。每个解码器层包括自注意模块、交叉注意模块和前馈网络。自注意模块中的因果掩模保持自回归特性。整个结构在提取和细化BEV特征方面具有几个优势: (1)增强型特征细化:该模型可以根据序列中的关键点,有选择性地关注BEV特征的相关领域。这种有针对性的注意力通过强调对准确重建车道图或理解场景至关重要的区域,有助于细化BEV特征。(2)改进远程依赖:拓扑序列解码器增强了对序列中遥远关键点与BEV特征中相应区域之间的远程依赖性的捕获。这对于像车道拓扑推理这样的任务尤其重要,在这些任务中,理解广泛分离的点之间的关系是至关重要的。(3)上下文集成:通过关注特定的关键点提示,模型可以减少BEV特征中不相关或冗余信息的影响。这导致了更高效的特征提取,并可能减少最终预测结果中的噪声。训练拓扑序列解码器的输出可以表示为:

其中TopoSeqDec表示拓扑序列解码器,表示预测的边缘序列。
- 序列结构
根据RoadNet,我们将有向无环图(DAG)转换为边序列。车道上的每个关键点都可以作为起点或终点,每条边都可以用6个整数表示:

其中,前两个整数int(),int()表示关键点的离散坐标。cls表示关键点的类别,可以是祖先、直系、分支或克隆节点。con表示关键点之间的连接。如果cls是祖先或直系的,则con被设置为0。否则,con将被设置为父关键点的索引。由于贝塞尔曲线可以有效地表征关键点之间的车道轨迹,最后两个整数int(),int()表示贝塞尔曲线的中间控制点。为了确定关键点的唯一顺序,我们选择BEV透视图中右前方的位置作为起点,并使用深度优先搜索来执行排序。

图3:输入序列和输出序列示意图
在训练过程中,我们构建了如图所示的两种类型的序列:输入序列和用于监督的目标序列。输入序列从< Start >标记开始,然后是关键点提示,然后是GT边,剩余的长度填充噪声边。关键点提示包括所有预测边的关键点以及噪声边。值得注意的是,关键点提示是无序的,不对应于边序列中的坐标的顺序。最后,关键点提示以< EOK >标记结束。在目标序列中,关键点提示的位置用< pad >标记填充,然后是地面真实边和噪声边,最后以< EOS >结束。为了帮助拓扑序列解码器识别哪些边是噪声边,有监督的噪声边在其类别位置用噪声类< ncls >标记,而其他位置则用< pad >标记填充。< pad >标记不计入损失计算。
- 随机顺序提示到序列学习
由车道段解码器预测的车道通常有错位的端点,需要四个点来代表两条车道线,并可能产生显著的几何间隙。相比之下,边缘序列只使用了三个点来完美对齐的两条车道线,增强了对自动驾驶轨迹的理解。为了利用序列到序列学习的远距离理解和序列化关系能力,我们在关键点提示处促进了车道段解码器和序列拓扑解码器之间的交互。 基于来自车道段解码器的预测,我们根据置信度从高到低对预测的车道线进行排序,并使用预测的邻接矩阵过滤掉任何重复的首尾点:

其中,关键点的坐标被离散化了。随机顺序提示到序列学习的目标可以表示为:


- 损失函数
Topo2Seq中的总体损失函数定义如下:

其中,表示L1损失。表示车道分类的焦点损失(Focal Loss)。包括交叉熵损失和dice损失。表示分类左右车道类型的交叉熵损失(例如,不可见、实心、虚线)。是一个用于监督预测的邻接矩阵A真实邻接矩阵之间的关系信息的焦点损失。表示在预测标记时监督拓扑序列解码器的最大似然损失。每个损失的权重用,,,,和表示。
实验结果&评价指标
表1:模型定量性能比较(OpenLane-V2 数据集-车道段感知任务)

表1展示了不同模型在真实场景数据集OpenLane-V2上的定量结果,可以看到Topo2Seq在该数据集上取得了优秀的性能。我们首先比较了Topo2Seq与最先进的车道段检测方法在OpenLane-V2基准测试上的性能。关于OpenLane-V2子集A的结果如表1所示。当训练24个阶段(12个预训练阶段和12个解码器交互阶段)时,Topo2Seq性能在指标上比LaneSegNet高1.8%,在上高1.5%。使用ResNet-50进行了总共48个阶段的两阶段训练过程,Topo2Seq实现了37.7%的mAP和29.9%的。在相同的配置下,Topo2Seq在上超过LaneSegNet 2.0%,在上超过2.6%。
表2:模型定量性能比较(OpenLane-V2数据集-中心线感知任务)

表2展示了不同模型在OpenLane-V2数据集的中心线感知任务上的定量结果。在相同的24epochs训练中,Topo2Seq在OLS∗比LaneSegNet好2.0%,在高出2.4%,在高出1.7%。与同样经过484epochs的TopoMLP相比,Topo2Seq在上的表现比TopoMLP高出4.2%,在OLS∗中表现高出2.5%,在上高出2.4%,在为则高出2.7%。这些结果表明,在训练过程中引入一个额外的序列解码器交互,使得网络在拓扑推理方面取得显著改进。
消融研究
表3:对openlane-V2基准的消融研究: OP、RP、RPL分别为顺序GT关键点提示、随机顺序GT关键点提示和随机顺序提示到顺序学习。

我们研究了Topo2Seq中的每一个重要设计。消融研究见表3。在序列学习中引入有序GT关键点提示时,网络只能学习关键点之间的轨迹,而不必推断它们之间的关系。这解释了为什么Index 2的结果优于Index 1的结果,了提高了2.7%。将Index 2和Index 3的结果进行比较,可以发现,由于车道段解码器输出的不准确和不稳定,序列拓扑解码器与之交互过早导致性能不如使用随机顺序的GT关键点作为提示。然而,与Index 1中的结果相比,这种方法在拓扑推理方面仍然有了轻微的改进。从Index 2和Index 4的结果中可以看出,当车道段解码器预测的关键点被引入关键点提示,并在两个解码器间进行了24个阶段额外的交互训练时,mAP提高了2.8%,TOP增加了2.1%。这一结果表明,序列学习可以进一步增强车道分割解码器对关注区域的BEV特征的提取,特别是增强远程感知和拓扑推理。

图4:模型定性结果比较
如图4所示,我们可视化了由LaneSegNet和Topo2Seq生成的车道图。相比之下,Topo2Seq可以生成了具有对齐的端点的高质量的车道图,并且具有更可靠的远距离感知和准确的拓扑关系。这被归因于与序列拓扑的交互所带来的优势。
结论
我们介绍了Topo2Seq,一种基于拓扑序列学习的车道拓扑推理方法。受到语言模型的启发,我们通过序列到序列的学习,解决了基于DETR的拓扑推理框架的局限性。通过随机顺序提示到序列学习,我们增强了拓扑序列解码器和车道段解码器之间的交互。该方法能够使Topo2seq生成端点对齐以及拓扑关系更加准确的车道图。在OpenLane-V2数据集上的实验结果表明,Topo2Seq在拓扑推理方面实现了最先进的性能。
#稀疏注意力、视觉语言新突破
各位AI爱好者,本周Hugging Face Daily Papers又带来了一波前沿研究成果!从长上下文建模到多模态视觉语言模型,再到AI研究Agent的新框架,TOP 10论文亮点满满,投票数火爆,值得一读!以下是简要介绍,快来一起看看吧~
- Native Sparse Attention 🚀(129票)
🔗 https://huggingface.co/papers/2502.11089
🔥 NSA(Native Sparse Attention)来了!针对长上下文建模的高计算成本问题,NSA通过动态层次稀疏策略和硬件优化,实现高效建模。实验证明,它在64k序列上大幅提速,同时性能媲美甚至超全注意力模型。效率与能力双赢!
- Qwen2.5-VL Technical Report 🔥(128票)
🔗 https://huggingface.co/papers/2502.13923
🚀 Qwen视觉语言系列旗舰升级!Qwen2.5-VL在视觉识别、文档解析和长视频理解上表现亮眼,支持动态分辨率处理,能精准定位对象并提取结构化数据。72B模型直逼GPT-4o,文档理解更是强到飞起!
- MLGym: AI研究Agent新框架 🚀(121票)
🔗 https://huggingface.co/papers/2502.14499
🔥 Meta MLGym和MLGym-Bench首次为AI研究任务打造Gym环境,涵盖13个开放性任务。测试结果显示,即便是前沿LLM也难生成新颖假设,暴露了AI研究能力的瓶颈。开源框架已就位,等你来挑战!
- SuperGPQA: 285学科LLM评估 🔥(78票)
🔗 https://huggingface.co/papers/2502.14739
🚀 覆盖285个学科的超大基准SuperGPQA登场!通过Human-LLM协作筛选题目,测试LLM的知识与推理能力。结果表明,即便是DeepSeek-R1也只有61.82%的准确率,AGI还有很长的路要走。
- SigLIP 2: 多语言视觉编码器 🚀(77票)
🔗 https://huggingface.co/papers/2502.14786
🔥 SigLIP 2在图像-文本任务上全面升级,加入自监督损失和数据筛选技术,支持多分辨率输入。性能提升的同时,还优化了多语言理解和公平性,提供从86M到1B的多种模型选择。
- Soundwave: 高效语音-文本对齐 🔥(73票)
🔗 https://huggingface.co/papers/2502.12900
🚀 Soundwave用1/50的训练数据打败Qwen2-Audio!通过新型架构和高效策略解决语音与文本的表示差距问题,翻译和语音任务表现抢眼。开源项目已上线,快去体验!
- Cramming 1568 Tokens into a Vector 🚀(57票)
🔗 https://huggingface.co/papers/2502.13063
🔥 将1568个Token压缩进一个向量?这篇论文探索了嵌入空间的极限,发现x1500的压缩比是可行的!研究表明,压缩极限取决于序列的不确定性,揭示了模型设计的巨大优化空间。
- The Danger of Overthinking 🔥(52票)
🔗 https://huggingface.co/papers/2502.08235
🚀 大型推理模型(LRM)也会"想太多"?论文分析了过思考的三种模式:分析瘫痪、错误行动和过早放弃。减少过思考可提升30%性能并降低43%计算成本,实用性拉满!
- How Much Knowledge in a LoRA Adapter? 🔥(50票)
🔗 https://huggingface.co/papers/2502.14502
🚀 LoRA适配器能塞多少新知识?研究发现,混合已知和新事实的训练数据效果最佳,但仍可能损害模型的通用能力。如何平衡新知识与性能,值得深思。
- Continuous Diffusion for Language Modeling 🚀(48票)
🔗 https://huggingface.co/papers/2502.11564
🔥 扩散模型也能玩语言建模!通过连续流设计和径向对称训练框架,这篇论文让扩散模型性能逼近自回归模型,开源代码已就位,赶紧去试试!
#HW智驾正式上车,搭载双激光雷达
AODI不想努力了?
2025,奥迪全面"投华"。
华为智驾首搭燃油车,全新奥迪A5L火了。
最前沿的端到端架构,带来最先进的「车位到车位」体验。
AI司机上车传统豪华,奥迪智驾一夜飞升,就是现在。
官宣合作7年,兜兜转转奥迪还是牵手了华为。
这也给豪华品牌,乃至整个合资阵营出了道题:
全面智驾,未来已来,是坚持自研还是赶紧上车中国智驾方案?
奥迪率先全面"投华"
先说明一下,这里说的全新奥迪A5L是来自上汽旗下,不是一汽也要出的那款A4L换代改名后的A5L。
全新奥迪A5L车长超4.9米,溜背造型设计,轿跑风格。本次改款上市,有两大亮点值得关注:
- 华为智驾首搭燃油车。
- 首个双激光雷达华为智驾车型。
不要被A5L"光秃秃"的前车顶迷惑,它的两颗激光雷达在车灯下方,类似小鹏转向视觉路线前的车型设计。
这种设计让激光雷达和车身融合的更好,但因为位置稍低,感知会受到影响,所以采用了两颗激光雷达"补盲"。
双激光雷达,这在华为系中尚属首例。
已上市的华为高阶智驾车型,最多搭载3颗激光雷达,比如方程豹豹8。
大部分都只搭载了1颗激光雷达,比如包括50万级问界M9在内的鸿蒙智行全系。
搭载4颗激光雷达尊界S800,将在5月底上市。
既然搭载了激光雷达,那上车的软件算法肯定是ADS 3.0 ,基于端到端架构 ,支持城区NOA**「车位到车位」**。
端到端是智能驾驶最前沿的技术范式,其实就是AI模型从过去只负责感知任务,到现在感知、决策和规划等任务一把抓,算法上限更高,并且让AI司机开车更拟人。
「车位到车位」,则是目前智能驾驶落地的最先进体验。
智能驾驶在停车位原地启动,AI帮你开出车位,过闸机,驶入公路,领航辅助驾驶,最终驶入指定车位。
**「代客泊车」**陆陆续续也会开放,到了停车场电梯口你可以直接下车,然后车子自己去找车位。
对用户来说,相当于有了自己的专职司机,不管是日常城区通勤还是高速长途跋涉,都更省心省力。
对奥迪来说,在华为的带动下,其智驾座次从落后一代一夜飞升至「领先一代」。
除了外观和搭载华为智驾,奥迪A5L曝光的信息不多,有望会在4月底的上海车展上市。
据了解,A5L暂时还未上车鸿蒙座舱,不过仅凭智驾已经让不少网友心动了。
有网友看了以后感慨:
A6不香了。
这下压力瞬间给到一汽了?
其实根据此前多方消息,一汽奥迪相关负责人已经剧透,今年所有上市车型都将搭载华为智驾。
一汽奥迪率先放风,上汽奥迪赶紧出牌。
兜兜转转,奥迪还是在华全面"投华",率先转型"俊杰汽车"。
延续的合作
实际上,早在2018年7月,奥迪就在自动驾驶领域与华为达成了合作。
△左为时任奥迪中国执行副总裁梅萨德,右为华为董事徐文伟,图源:华为
当时原计划率先落地奥迪Q7。
徐文伟在当时展望未来,认为通过双方的合作:
相信不久的将来,消费者可以体验到更加安全、舒适、便捷、智能的自动驾驶服务。"
但在2018年 后,由于众所周知的原因,双方再也没有提起过这项合作,相关工作的推进也鲜少披露。
但在这7年里,双方一直在以各自的方式探索自动驾驶。
华为的工作,大家都比较熟悉了,ADS不断迭代,赋能车企转动数据飞轮,预计将于今年迈向L3级自动驾驶。
奥迪则早早瞄向L3,却在2019年底正式取消了L3项目,将资源分别投入L2和L4级自动驾驶研发。
后来在2021年世界物联网博览会上,展示了结合车联网的L4级自动驾驶公开路测,不过演示路程仅有6.5公里。
在L2维度则鲜有作为,2022年底推出的A6L搭载的还是自适应巡航系统。半年以后,国内就开卷城区NOA了。
智能化的技术劣势,开始转变为市场劣势。
2024年,奥迪全球销量为167.1万辆,下跌11.8%,在BBA中排名最末。
其中中国市场交付了64.94万辆车,销量同比下滑11%。
转型成绩也不太理想,2024年奥迪纯电动车销量为16.4万辆,下跌8%,占总体销量还不到10%。
最终在市场无形大手的推动下,奥迪再度牵手华为。弹指7年,当时的合作见证者,有的已经退休了。
与此同时,同样面临转型困境的奔驰,也把希望放在了中国,押注智能化。
据了解,奔驰目前在华研发团队超2000人,依靠中国研发团队开发无图方案,去年首秀上海,目前尚不清楚量产上车,全面铺开的事件。
宝马则在今年1月,要量产搭载V2X(Vehicle to X)模块的全新宝马5系,增强整车智驾能力,表示"要继续加大研发投入,携手中国创新力量"。
BBA是豪华品牌的代表者,随着他们重注智能驾驶,再加上比亚迪等力推"全民智驾",中国市场的风向很明确了。
可以预见后续二线的豪华品牌,以及大众市场诸合资将陆续跟进。
自研时间太久,市场只争朝夕。
#2024自动驾驶数据集完全指南:20+高质量开源数据集
1、 题目: MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception
简介: MSC-Bench: 第一个针对多传感器自动驾驶感知模型在各种传感器损坏情况下的鲁棒性进行评估的综合基准
时间: 2025-01-10T23:52:48.526+0800
2、 题目: Hidden Biases of End-to-End Driving Datasets
简介: 2024 CARLA挑战赛中的地图和传感器赛道上排名第一和第二!Bench2Drive测试路线中SOTA!
时间: 2024-12-13T12:01:19.839+0800
3、 题目: Multi-cam Multi-map Visual Inertial Localization: System, Validation and Dataset
简介: 一种多摄像头多地图视觉惯性定位系统
时间: 2024-12-08T00:04:34.943+0800
4、 题目: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection
简介: 首个针对3D目标检测的现实世界开放世界自动驾驶基准
时间: 2024-11-28T14:12:50.201+0800
5、 题目: V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
简介: 全球首个集成4D Radar并面向真实场景的多模态车路协同感知数据集
时间: 2024-11-19T21:19:52.213+0800
6、 题目: V2X-R: Cooperative LiDAR-4D Radar Fusion for 3D Object Detection with Denoising Diffusion
简介: V2X-R: 首个结合LiDAR、相机和4D Radar的V2X模拟数据集
时间: 2024-11-14T22:38:05.292+0800
7、 题目: Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models
简介: 通过BEV注入多模态大模型对自动驾驶的整体理解:BEV-InMLLM整合了多视图、空间意识和时间语义,以增强在NuInstruct任务上的MLLMs的能力
时间: 2024-01-03T21:23:08.634+0800
8、 题目: ROAD-Waymo: Action Awareness at Scale for Autonomous Driving
简介: ROAD-Waymo,一个广泛的数据集,用于开发和评估道路场景中agents、动作、位置和事件检测技术,该数据集基于Waymo Open数据集
时间: 2024-11-06T21:58:38.047+0800
9、 题目: Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions
简介: 第一个专注于恶劣天气条件的开源合成协同感知数据集
时间: 2024-10-15T23:59:12.411+0800
10、 题目: TLD: A Vehicle Tail Light signal Dataset and Benchmark
简介: 转向灯、刹车灯数据集来了!
时间: 2024-09-06T23:22:06.957+0800
11、 题目: WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving
简介: WayveScenes101: 该数据集专注于包含众多动态和可变形元素、几何形状和纹理变化的复杂驾驶场景。数据集包含101个驾驶场景,涵盖广泛的环境条件和驾驶情景
时间: 2024-07-14T22:20:58.691+0800
12、 题目: SID: Stereo Image Dataset for Autonomous Driving in Adverse Conditions
简介: SID:用于恶劣条件下自动驾驶的立体图像数据集
时间: 2024-07-09T23:28:37.587+0800
13、 题目: DurLAR: A High-Fidelity 128-Channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-Modal Autonomous Driving Applications
简介: DurLAR:一个高保真度的128通道3D激光雷达数据集
时间: 2024-06-17T23:27:08.364+0800
14、 题目: Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset
简介: 纽约大学联合自动驾驶公司May Mobility,推出了MARS数据集,该数据集统一了多agent、多遍历和多模态自动驾驶研究的场景
时间: 2024-06-16T09:52:47.868+0800
15、 题目: SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception
简介: 首创的多视角自车和固定感知的基于事件的合成数据集
时间: 2024-04-27T09:43:05.766+0800
16、 题目: PLoc: A New Evaluation Criterion Based on Physical Location for Autonomous Driving Datasets
简介: PLoc:一种新的基于物理位置的自动驾驶数据集评估标准
时间: 2024-04-06T00:09:04.617+0800
17、 题目: CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks
简介: CORP:专为校园场景下的多模态路边感知任务量身定制的首个公共基准数据集
时间: 2024-04-05T23:57:47.758+0800
18、 题目: Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception
简介: 用于自动驾驶汽车感知的新型传感器有哪些?来看看这份NSAVP数据集和基准
时间: 2024-01-27T10:40:46.045+0800
19、 题目: A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook
简介: 200+自动驾驶数据集全面调研!
时间: 2024-01-04T22:54:54.556+0800
20、 题目:英伟达和卡内基梅隆大学最新!V2V-LLM:基于多模态大语言模型的车对车协作式自动驾驶
简介: 一种基于LLM的协作式自动驾驶新框架,并配套发布首个面向车对车问答(V2V-QA)的数据集与评测基准
#中国首起L3事故?真刑啊
中国"首起L3事故",最新进展来了.
从事件"曝光",到主要责任人被抓,前后时间不到一周。
但这次"刑"起来的,却不是L3的技术开发或运营方。
甚至涉事车企,也表示自己也是一脸懵,很无辜。
发生了什么?
2月18日,广州天河警方发布了一则消息:
2月12日,广州天河警方接群众报警称,有人在网络上发布"首例智能驾驶致死案宣判车企担责70%"的虚假信息。接报后,警方迅速介入调查,并于2月14日抓获犯罪嫌疑人闫某(男,53岁)。
经查,闫某为吸粉引流、赚取流量收益,捏造不实信息,通过其在各大平台的个人自媒体账号发布不实帖文,造成恶劣影响。目前,闫某已被警方依法刑事拘留,其对上述行为供认不讳,案件正在进一步侦办中。
媒体与车企的纠纷恩怨屡见不鲜,报警发律师函的也不少,但这次性质格外严重:警方公告中直接使用了犯罪嫌疑人 的表述,而不是违法嫌疑。
区别在于,如果只界定为"违法",有可能只给予行政处罚,免于起诉。而一旦被以"犯罪嫌疑"处理,办案机关会将相关证据固定,移交起诉。
更精确地讲,"犯罪"特指有违反我国《刑法》的情节,并且社会危害程度较高。
那么,闫某到底说了什么?
2月12日,他通过自己控制的自媒体账号发布《L3级自动驾驶首例判决!车企担责70%,智驾法规全面重构》一文。文章称,广州法院于2024年12月对一起小鹏汽车L3级自动驾驶追尾事故作出判决。因系统未识别静止障碍物,车企需承担70%的赔偿责任,车主自负30%。
其中把案件称为"国内首例智能驾驶致死案",迅速在网络上引发广泛关注和讨论。
当天小鹏汽车发布公告辟谣,并报警处理。次日公安就侦破,主要犯罪嫌疑人涉嫌寻衅滋事罪已到案。
寻衅滋事罪在刑法中界定范围比较宽泛,行为人实施肆意挑衅,随意殴打、骚扰他人或任意损毁、占用公私财物等行为,或者在公共场所起哄闹事,造成了严重破坏社会秩序的损害结果都达到立案标准。
量刑一般分5年以下及5年到10年两个区间,视危害程度而定。
具体到这个案子,危害程度大概率会以相关内容在互联网的转发讨论数量为参考。
当然,最后是否以寻衅滋事罪起诉还不一定,因为闫某炮制Fake news的情节,也符合刑法中的损害商业信誉、商品声誉罪范围,量刑在2年以下。
查阅全国、广东地区类似案件情况,大多数都是以行政处罚手段处理,上升到违法犯罪处理程序的还真不多。
一方面,可能因为最新的政策风向更加倾向于保护民营企业;
更关键的,是因为这个谣言炮制的确太粗糙,没有什么翻案、模糊的空间。
首例L3事故?咋回事?
事实真相很简单:根本不存在这样一个案例,广州法院没判过,裁判文书也查不到。
因为小鹏现在量产的智驾系统,根本就不是L3,这是技术圈、用户、媒体,也包括小鹏汽车自己一致的共识。
特斯拉、小鹏等等玩家量产高阶智驾的全称,应该是高阶辅助智能驾驶,在国标GB/T 40429-2021中,只要带辅助二字,就属于L2及以下的范围。
L3及以上最本质的区别,是**"驾驶自动化"**,即在特定条件下,完全实现自动驾驶,"条件"越普适,级别越高。
小鹏XNGP不是L3,国内首批通过L3上路试点的车企名单中也没有它,自然不存在所谓"车企70%、用户30%"的案例。
不过官方有临时法规性质的文件中,口径统一为智能网联汽车,包含国标GB/T 40429-2021定义的L3级驾驶自动化(有条件自动驾驶)和L4级驾驶自动化(高度自动驾驶)。
至于事故责任,目前的仍然沿用2023年7月的规定:
事故责任归属的判断由交通违法行为发生地的公安机关交通管理部门管辖。
在测试过程中事故责任系车辆负责的,造成的损失首先由保险公司赔付,不足的部分由试点使用主体(申请车企或其他试点申请方)补齐。
也就是在L3试点阶段,具体情况具体商量,由当地交管部门凭经验和客观损失划分责任。
很明显是先收集案例积累操作经验,为后面L3的规模化量产上路做准备。
从种种迹象来看,L3结束试点,进入量产阶段可能也的确不远了。
国内公开宣布L3时间表的玩家,包括:
小鹏汽车------2025年底推出L3级智驾软件;
华为也明确在今年推出L3商用版本,合作车企之一岚图,透露L3车型已经在研发了;
上汽旗下的通用、智己,则宣布与2026年实现L3商用。
极氪也将在4月上海车展公布自己的L3车型。
背后的技术,100%无例外都是端到端体系。
这也使得L3即将爆发的前夕,中国和欧洲车企走向两条不同的路线:中国靠数据驱动的端到端,欧洲车企靠规则定义的传统范式(奔驰、宝马等有严苛条件的L3系统)。
北美呢?NHTSA最新的自动驾驶准入法规草案中,直接划分为辅助驾驶和全无人,没有给L3这种比较模糊的"人机共驾"留下任何操作空间。
核心难题仍然是:
L3大部分时间可以脱手脱眼,但注意力必须一直集中,随时准备接管。而驾驶员接管时机难以量化表述,一旦发生事故,很难说是系统能力不足还是用户接管时机不当。
基于此,L3呈现出这样的格局:中国努力探索,北美直接放弃,欧洲圈地自娱自乐。
对于用户来说,我们关心的则是:
一旦L3车型开卖上路,事故究竟谁来买单?
#OccProphet
港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%(ICLR'25)
本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework 』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!相比此前最先进的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,内存占用减少近60%,仅需24G显存即可完成训练和推理。代码即将开源。

图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%
动机
提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。
这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架------OccProphet。
它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步,首次展现了4D占用感知在自动驾驶车辆上部署的可行性。
方法详解
如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在训练阶段 还是推理阶段都是计算友好的。

图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。
- 观察器(Observer)模块:高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
- 预报器(Forecaster)模块:在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
- 细化器(Refiner)模块:通过促进帧间交互,进一步提升这些预测的质量。
- 预测器(Predictor):将经过优化的未来状态解码为占用或占用流。
OccProphet 在创新性方面主要做出了以下贡献:
- 一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
- 一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
- 实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。
关键组件
观察器(Observer)
观察器(Observer)模块接收4D运动感知特征作为输入,并生成时空感知表示。通过多相机RGB图像在时间戳上的数据,使用共享的图像编码器(例如ResNet)提取2D特征,这些特征被投影到3D空间中并聚合成体素化的3D特征。随后,来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系,形成4D特征,然后通过附加6-DoF自车姿态信息生成运动感知4D特征。考虑到直接处理的计算负担和3D空间大部分区域未被占用的事实,本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。
Efficient 4D Aggregation(高效4D聚合)

图3:高效4D聚合模块
直接聚合原始4D运动感知特征会导致高计算成本。为提高效率,本文设计了名为高效聚合(Efficient 4D Aggregation, E4A)的模块,该模块首先通过下采样生成紧凑特征,然后在这些紧凑特征上利用时空交互实现聚合,最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将的通道数从减少到,形成特征。为了弥补因下采样导致的信息丢失,尤其是小物体的信息丢失,该方法一方面对下采样后的特征进行时空交互(即三元组注意力融合模块),另一方面对后交互特征进行上采样,并与下采样前相同分辨率的特征相加,直到上采样特征的分辨率匹配初始运动感知特征的分辨率。
Tripling-Attention Fusion(三元组注意力融合)

图4:三元组注意力融合(左)和三元组分解操作(右)
三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。
在数学表达上,给定输入特征,通过全局平均池化(GAP)、线性变换(Linear)、一维卷积(Conv)、归一化(Norm)及激活函数(Act)处理,分别得到场景、高度、BEV分支的输出。随后,通过对不同分支应用时间注意力(TA),并利用广播技术将这三个分支的结果相加,最终得到TAF模块的输出特征。
预报器 (Forecaster)

图5:预报器的结构
给定由Observer模块输出的时空表示,预报器 (Forecaster)模块旨在生成未来状态。首先通过将时间轴折叠进通道轴来重塑,形成重塑后的特征。直接使用单一线性层预测未来帧特征的方法虽然简单,但难以适应不同交通场景下显著变化的空间时间复杂性,尤其在动态复杂的环境(如拥挤的十字路口)中预测难度更大。
为应对这些挑战,提出了一种灵活适应各种具有不同空间时间复杂性的交通场景的预测方法。该方法包括一个条件生成器(Condition Generator)和一个有条件预报器(Conditional Forecaster)。首先,条件生成器通过3D全局平均池化(GAP)和跨帧共享的线性层从观测值中提取条件,然后将其重新排布为并传递给有条件预报器以预测未来状态。具体来说,对应用线性层产生针对特定交通场景的自适应权重,并使用另一线性层基于这些权重预测未来状态。最终得到的未来状态特征被重新排布回包含时间轴的形式,作为未来环境的初步特征,并进一步通过细化器(Refiner)模块进行细化处理。
细化器(Refiner)
鉴于预报器模块通过线性投影预测,其不可避免地缺乏帧间交互。为弥补这一缺陷,设计了细化器(Refiner)模块,旨在通过增强未来帧间的交互,并结合历史帧作为补充信息来提升预测结果的准确性。高效4D聚合模块(E4A)作为一个时空交互模块对于任何输入特征,其功能可表示为,其中是高效4D聚合模块的输出特征,代表变换函数。考虑到残差网络有助于细化和网络优化,可以将高效4D聚合视为一种特征的"细化变换",这也有助于降低前序模块的学习复杂度。
基于上述见解,进一步引入了一个重用高效4D聚合架构的细化器模块,用于精细化由预报器预测的未来状态以及由观察器输出的特征。具体来说,细化器应用于这两个特征,生成增强后的特征,以便后续进行占用和占用流的预测。
实验
网络的训练使用4块(至少1块)RTX4090 GPU,测试使用1块RTX4090 GPU(24G显存)。
实验结果表明,OccProphet在预测准确性和效率上均表现出色,在三个数据集上相对于最先进的Cam4DOcc模型,其占用预测准确性分别提升了4%∼18%,同时运行速度提高了约1.6倍,计算成本降低了58%∼78%。
定性实验

图6:Cam4DOcc与OccProphet的定性实验
Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。
定量实验

图7:不同表征形式之间的比较
采用E4A表征在性能上优于BEV和TPV表征,且参数更少,计算成本仅略有增加。

图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能
OccProphet在细粒度的4D占用预测上具有明显优势。

图9:模型复杂度的比较
与Cam4DOcc相比,OccProphet的参数量、内存占用和FLOPs均降低了58%-78%,同时OccProphet在未来帧的平均IoU上实现了相对4%的提升,并且其FPS达到了Cam4DOcc的2.6倍。
更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。
结论
本文提出了OccProphet,这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道,专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上,它在占用率预测方面比最先进的Cam4DOcc高出4%至18%,同时运行速度提高了2.6倍,计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。
#ChatVLA
显著超越现有SOTA!实现统一的多模态理解与机器人控制VLA的痛点与解决方案
人类拥有统一的认知能力,能够感知、理解物理世界并与之互动。为什么大语言模型无法复制这种整体理解能力呢?通过对视觉-语言-动作模型(VLA)现有训练范式的系统分析,发现了两个关键挑战:虚假遗忘,即机器人训练会覆盖关键的视觉文本对齐信息;任务干扰,即控制任务和理解任务在联合训练时相互竞争,会降低模型性能。为了克服这些限制,这里提出了ChatVLA,一个新颖的框架,它采用分阶段对齐训练,在掌握初始控制能力后逐步整合多模态数据,还使用专家混合(MoE)架构来最小化任务干扰。ChatVLA在视觉问答数据集上表现出色,在多模态理解基准测试中显著超越了最先进的视觉-语言-动作(VLA)方法。值得注意的是,它在MMMU基准测试中的性能提高了6倍,在MMStar基准测试中得分达到47.2%,并且与ECOT相比,其设计的参数效率更高。此外,与现有的VLA方法(如OpenVLA)相比,ChatVLA在25个现实世界机器人操作任务中表现更优。研究结果凸显了这个统一框架在实现强大的多模态理解和有效的机器人控制方面的潜力。
项目链接:https://chatvla.github.io/****
行业介绍
近年来,视觉-语言-动作(VLA)模型取得了显著进展,这类模型在很大程度上优先致力于让机器人掌握动作。在机器人控制任务上训练的模型擅长低级操作和物理交互,但在解读和推理图像、文本等多模态数据时却常常遇到困难。这看似矛盾,因为现代VLA架构是基于预训练的视觉-语言模型(VLMs)构建的。相反,在视觉-文本对上训练的VLMs展现出了出色的多模态场景理解能力,但却缺乏与环境进行物理交互的能力。这种二元性凸显了一个关键挑战:如何在不牺牲任何一个领域性能的前提下,通过对齐机器人动作和视觉-文本语义这些不同数据源,实现实体控制和多模态理解的统一。
我们的工作致力于探索如何统一一个端到端的神经网络,使其具备多模态场景理解、对话能力和物理交互能力。首先研究了现有的训练范式,评估它们实现统一的可行性。我们研究了VLA训练的三种数据设置:
第一,仅在包含机器人动作轨迹的专家演示数据上进行训练(这是最常见的方法,例如OpenVLA、TinyVLA、π0 );
第二,用推理短语扩充机器人数据以指导动作(类似于ECOT和DiffusionVLA);
第三,同时使用视觉-文本对和机器人数据进行联合训练(如RT-2)。
这里也分析了每种配置对模型平衡控制和理解能力的影响。实验表明,仅用机器人数据训练会完全侵蚀对话能力;添加推理数据能部分保留多模态理解能力;引入视觉-文本对则会显著削弱控制能力。这揭示了两个关键挑战:第一,VLA模型存在虚假遗忘问题,模型性能下降并非意味着预训练VLMs的知识完全丢失,而是模型内部表示与不同任务的对齐方式发生了变化。机器人动作与视觉-文本数据之间的对齐似乎很脆弱,在微调过程中容易被覆盖。第二,任务干扰问题,控制任务和理解任务的参数空间相互冲突,它们共享重叠的表示,在同时训练时会导致相互的性能下降。
为了解决这些挑战,我们提出了ChatVLA,这是一个在神经架构和训练策略方面都简单有效的框架,能让单个神经网络同时掌握理解和操作能力。我们受到课程学习的启发,提出了分阶段对齐训练,这是一种两阶段策略。模型首先掌握实体控制,然后逐步整合多模态数据, "重新激活" 冻结的对齐链接。此外,在MLP层引入了专家混合(MoE)。这使得两个任务可以共享注意力层(用于跨任务知识转移),同时隔离特定任务的MLP(以最小化干扰)。这一设计的灵感来自双编码理论,该理论认为人类大脑通过两个独立但相互关联的系统处理信息:一个用于物理技能,另一个用于语言和视觉实践。ChatVLA中共享的注意力层促进了理解任务和控制任务之间有益知识的交换,而单独的MLP层则独立处理所学知识。
我们从三个维度评估ChatVLA:对话能力(视觉问答)、一般多模态理解和一般机器人控制。在TextVQA和DocVQA等既定数据集上评估其对话能力,与现有的VLMs相比,ChatVLA取得了具有竞争力的性能。此外,ChatVLA在包括MMMU、MME和MMStar在内的一般视觉和文本基准测试中,展示出了强大的多模态理解能力。值得注意的是,与ECOT等最先进的VLA方法相比,我们的方法在MMMU上性能提高了6倍,在MMStar上的性能从0提升到47.2,并且在VLM骨干网络中使用的参数减少了3.5倍。最后在25个现实世界机器人任务上评估ChatVLA,这些任务涵盖了抓取、放置、推动和悬挂等多种技能,涉及浴室、厨房和桌面等多个环境。在这个多任务设置中,我们的方法优于OpenVLA等最先进的VLA方法。这些结果验证了方法的有效性,展示了单一统一方法在多模态理解和机器人控制方面的潜力。
ChatVLA贡献如下:
- 在严格的设置下深入分析了现有的VLA方法,展示了它们在实现令人满意的多模态理解和机器人控制性能方面的局限性;
- 引入了ChatVLA,这是一个简单而有效的框架,它在单个神经网络中统一了对话能力、多模态理解和机器人控制;
- 进行了广泛的实验,评估ChatVLA在各种问答和一般理解基准测试中的性能;
- 进行了广泛的现实世界机器人实验,涵盖了现实家庭环境(桌面、厨房和浴室)中的25个不同任务,展示了ChatVLA在现实世界机器人控制场景中的卓越性能。
相关工作
多模态理解
多模态大语言模型(MLLMs)通过整合视觉和语言信息来实现整体场景理解,极大地推动了多模态理解领域的发展。MLLMs在需要跨模态对齐的任务中,如视觉问答(VQA)、图像字幕生成和空间推理,展现出了出色的性能。这一成功源于它们能够通过复杂的适配器设计将视觉特征映射到语义表示。然而,当前的MLLMs缺乏与物理世界的连接,无法与环境和人类进行交互。这项工作旨在填补这一空白,使视觉-语言模型也能具备行动能力。
机器人学习中的视觉-语言-动作模型
视觉-语言-动作模型(VLAs)是一个不断发展的研究领域,它以预训练的视觉-语言模型(VLMs)为骨干,实现语言理解和观察理解。这些方法通常对大型预训练VLMs进行微调,以预测机器人动作。这些方法在模拟和现实世界任务中都表现出了强大的性能。然而,现有的VLA模型尚未证明具备真正的多模态理解能力。基于我们的实验,发现这些模型缺乏这种能力。相比之下,我们的工作提出了一种统一的方法,使单个网络能够有效地处理多模态理解和机器人控制。
ChatVLA方法介绍

形式定义
考虑机器人控制和多模态理解这两种不同的场景。在机器人控制场景中,我们通常构建一个演示数据集,其中每个演示由一系列状态-动作对组成。状态由观察(图像)和指令(文本)组成,即。我们可以将状态-动作对序列表示为:

其中每个元组表示时间步的状态和相应采取的动作,是演示的长度。这些演示通常由人类专家提供。
对于多模态理解和视觉对话任务,我们有一个数据集,其中每个数据样本由一个视觉图像和相应的文本形式的问题(或字幕)组成,即。这里,表示此类图像-文本对的总数。符号表示视觉-文本数据。
工作的总体目标是开发一个通用模型,它能够处理实体控制和多模态理解。对于实体控制,这涉及学习一个策略,该策略对给定当前视觉观察和文本指令的机器人动作的联合分布进行建模:。同时,对于多模态理解和视觉问答,模型应该捕捉给定视觉输入的文本(答案或字幕)的分布:。我们的目标是创建一个统一的模型,能够有效地学习这两种分布,使其在机器人控制任务和多模态理解场景中都能表现出色。
当前的VLA研究致力于开发更强大、更具泛化性的模型来学习视觉运动策略。一些方法探索类似思维链的推理来改进策略生成,而另一些方法则研究使用视觉-文本和机器人数据联合训练VLA模型。一些研究报告称在实验室环境中使用视觉-文本数据联合训练有好处,而另一些研究发现在现实世界场景中效果不佳。虽然有一些工作表明VLA可以保持对话能力,但没有研究深入探讨在应用VLA训练范式后,这种能力以及一般多模态理解能力是如何保留的。在接下来的部分,分析VLA的不同训练数据集设置,特别关注所得模型在多模态理解和现实世界机器人控制中的性能。目标是为构建能够同时实现这两者的统一模型提供实用指导。
分析
为了了解现有VLA模型在多模态理解和实体控制方面的能力,我们研究了三种不同的训练范式,每种范式使用不同的数据集:第一,仅用机器人数据训练,这是VLA中最普遍的方法,主要侧重于优化机器人控制性能;第二,用类似思维链的推理扩充机器人数据,旨在提供辅助信息,提高模型的泛化能力和机器人任务性能;第三,同时使用视觉-文本数据和机器人数据进行联合训练。后一种范式由RT-2开创,但由于专有数据和模型细节的原因,很难进行精确复制。在本次实验中,参照RT-2,将机器人数据与视觉-文本数据的比例设为3:1。
我们分析了VLA模型的这三种训练数据设置。具体来说,使用DiffusionVLA,这是一个具有代表性的VLA模型,它既支持通过自回归生成语言输出,也支持通过扩散模型生成动作。在六个具有代表性的基准测试中评估性能:其中四个侧重于视觉问答,另外两个对多模态大语言模型进行更广泛的评估,涵盖数学和OCR等任务。此外,在五个现实世界机器人任务中评估性能,这些任务涵盖了悬挂、拉动、抓取和放置等多种技能。按照DiffusionVLA的方法,生成机器人推理数据。对于视觉-文本数据,从LLaVA中随机抽取54k个图像-文本对。

多模态理解和问答基准测试结果:实验结果如图2所示。图的右下角显示了在六个基准测试中的性能,包括视觉问答(VQA)和一般理解任务。图的右上角显示了在五个现实世界机器人任务上总共进行112次试验的平均成功率。
右下角的表格包含了基础模型Qwen2-VL的结果。一些结果在意料之中。例如,仅在机器人数据上训练模型,在所有基准测试中的性能均为0。该模型完全失去了对话能力,被提问时只会输出无意义的内容。不出所料,与基础模型相比,使用视觉-文本对和机器人数据同时训练时,性能下降最小。有趣的是,即使推理数据中的推理短语具有高度结构化和模板化的特点,用包含推理的机器人数据进行训练也能将性能从0提升到不可忽视的水平。尽管推理短语相似且结构化,但明确让模型 "表达出来" 显著提高了问答甚至一般理解的性能。
结论1:观察表明,预训练的VLM组件似乎遭受了灾难性遗忘。仅用机器人数据训练会导致模型失去先前获得的对话和理解能力。然而实验表明,这并不一定意味着知识的完全丢失,而是由机器人数据导致的对齐错误。使用固定的推理模板进行训练似乎 "重新激活" 了视觉-文本对齐,使模型能够进行对话并展示理解能力。
现实机器人多任务设置的结果:进一步在现实机器人设置中评估了不同的方法。所有方法都在25个现实机器人任务上进行训练,这里选择了五个不同的任务,涵盖推动、抓取和悬挂等技能进行比较。然而,令人惊讶的是,仅用机器人数据训练的性能比加入推理数据更差。这证实了先前的发现,即利用视觉或文本思维链可以增强机器人模型的泛化能力。有趣的是,将机器人数据与视觉-文本数据联合训练导致现实世界任务成功率显著下降。
结论2 :最初观察到在机器人数据中加入推理可以提高性能,这与双编码理论一致。该理论认为,身体运动技能和视觉-语言理解并非相互排斥,而是相互关联的,具有重叠的益处。然而,当在训练数据中加入视觉-文本对时,机器人控制的性能急剧下降。这表明,动作生成和理解所需的不同表示可能在共享参数空间中相互竞争。我们将这种现象称为部分任务干扰,需要仔细解决。一个统一的系统应该连接这两种数据类型,同时为每个任务实现可分离的表示学习。
ChatVLA
如前所述,在机器人策略数据上训练会干扰视觉-文本关系的学习。此外,仅在机器人数据上训练会削弱视觉-文本对齐,导致模型对话能力下降。因此,解决这两个挑战对于在单个VLA模型中成功统一这两个方面至关重要。这里将首先描述用于解决虚假遗忘的训练策略,然后概述方法的总体架构,以解决第二个挑战。

分阶段对齐训练:此前发现虚假遗忘是导致VLA失去聊天和理解场景能力的关键因素。由于预训练的VLM训练良好,在视觉相关任务中表现出色,因此直观地说,少量的视觉-文本对数据就可以重新激活聊天和理解场景的能力。相比之下,机器人控制任务的训练要复杂得多,因此优先开发一个在实体控制任务中表现出色的优秀模型。我们的训练策略简单而有效。首先在机器人数据上训练VLA模型。在这个训练过程中,我们还包括推理数据,以确保视觉和文本组件之间的持续对齐。一旦机器人数据训练完成,同时训练视觉-文本数据和机器人数据,以帮助模型在两个任务中都保持熟练程度。

专家混合:上面展示了使用分阶段对齐训练来解决虚假遗忘问题,使模型能够保留先前训练的VLM中的知识。然而,这种方法并没有完全解决任务干扰问题,因为模型仍然需要同时在视觉-文本数据和机器人数据上进行联合训练。我们引入专家混合来解决这个问题,如图4所示。给定作为第个块的输入。该输入可以属于或。值得注意的是,这里设计了一个双路由器,一个用于处理与多模态理解和对话相关的任务(),另一个用于学习机器人控制的表示()。输入首先通过多头自注意力机制,其中表示多头自注意力。然后将其输入到专家混合层,可以表示为:

然后将其与来自跳跃连接的输入相加。请注意,在第一阶段训练中,仅激活控制专家。
为了区分不同任务的输出,采用了不同的系统提示。比如,对于理解和对话任务,使用 "依据问题作答";对于控制任务,则使用 "预测机器人动作"。直观来讲,应用于多层感知器(MLP)层的静态专家混合(MoE)架构,可看作是一个高维特征提取器,它对共享参数空间进行划分。这使得每个任务(例如理解任务和控制任务)都能利用相当一部分专用神经元,进而让模型在这两个方面都表现出色。这种类MoE架构的一个关键优势在于,在推理过程中,仅有一条路径会被激活,从而保留了基础模型的参数。我们的研究结果表明,这种简单直接的方法能够同时提升模型的理解能力、对话能力和控制性能。 为什么要共享自注意力层呢?目前一种常见的解决方案是使用注意力混合机制来学习特定任务的表示。然而,基于实验我们认为理解任务和机器人控制任务共享的一些表示对两者都有益。例如,在典型的机器人控制场景中,模型需要理解场景、识别物体、确定物体位置,然后将这些信息转化为动作。这些高维表示具有相似的语义概念。因此,这两个任务之间的相互关联性,对于同时提升理解和控制方面的性能至关重要。
实验分析 多
模态理解和视觉问答结果
使用Vlmevalkit在TextVQA、DocVQA、InfoVQA、AI2D、ChartQA、MTVQA和RealworldQA数据集上评估ChatVLA的视觉问答能力。还针对为多模态大语言模型(MLLMs)设计的更具挑战性的基准进行了测试,即MMMU、MMStar、MME、OCRBench、HallBench和MMBench。如表1所示,ChatVLA在多个基准测试中与现有的视觉语言模型(VLMs)相比表现出了竞争力。值得注意的是,在视觉问答任务中,我们的框架在TextVQA上取得了71.2的显著成绩,大幅超越了当前最先进的视觉语言动作(VLA)方法。与ECoT和DiVLA相比,它在这些基线模型上的相对提升分别达到了9.2倍和9.5倍。该模型在需要复杂跨模态整合的多模态推理任务中表现出特别强的能力。在MMStar基准测试中,ChatVLA获得了37.4的分数,与DiVLA和ECoT相比,性能分别提升了2.2倍和6.9倍。
真实机器人任务结果
ChatVLA的实体控制性能在25个真实世界的操作任务上进行评估。根据语言指令的粒度,所有这些评估任务可分为三类。我们在一个真实机器人上进行了528次试验,以评估该模型的能力。
- 直接提示的长时程任务:模型被要求直接根据语言指令执行任务(例如,"整理玩具")。评估的四个任务均在桌面设置的玩具场景中完成。此类具有挑战性的任务包括任务1,其中所有玩具以随机姿势放置在不同位置;以及任务3,它需要整合打开、拾取和关闭这三种不同的技能。在所有评估场景中,ChatVLA在直接根据高级描述执行任务方面展现出显著优势。该方法在多步序列中保持一致的性能,在任务1中平均成功长度达到0.54(比Octo高6.75倍),并且在任务3的三步序列中成功率达到完美。
- 带有高级规划器的长时程任务:模型接收指定当前子任务目标的中间命令(例如,"拾取物体并放置到目标位置")。此评估的主要挑战来自子任务之间的显著差异,这些差异包括:(1)不同的物体类型(例如,盘子、杯子、面包);(2)多种所需技能(例如,拾取 - 放置、翻转);(3)不同的位置高度(例如,顶部/底部架子位置),如图1右下角面板所示。这些差异共同构成了一个测试平台,用于评估模型的组合推理能力,特别是其整合物体操作、空间推理和干扰适应的能力。这一要求在实验结果中得到了明显体现,如表3所示,ChatVLA在所有任务配置上均优于OpenVLA和Octo。
- 跨技能多任务:这些任务需要在各种真实世界环境中整合多种操作技能(例如,拾取、放置、推动和悬挂),具体分为三个测试领域:浴室场景(任务14 - 17)、厨房环境(任务18 - 19)和桌面配置(任务20 - 25)。如表4所示,ChatVLA在所有任务类别中均比Octo和OpenVLA表现更优。该模型在具有挑战性的浴室和厨房任务中表现尤为出色,在这些任务中,机械臂的操作空间范围受到严重限制。这种实验设置在模型评估过程中引入了大量安全考虑因素,从而对评估模型的操作精度和系统稳健性提出了严格要求。
消融研究
- 哪种视觉语言数据更优?:在第二阶段,使用LLaVA - 1.5数据集进行联合训练,这使得模型在视觉问答(VQA)和多模态大语言模型基准测试中与Qwen2 - VL相比能够取得相当的结果。然而,我们认为剩余的性能差距归因于所使用的视觉文本数据的局限性。为了进一步探索这一点,对ChatVLA和Qwen2 - VL在MMMU数据集上的结果进行了深入分析,如图5所示。MMMU数据集分为六个类别,ChatVLA在其中三个类别(艺术、医学和社会科学)中的性能略低于Qwen2 - VL。对相应子类别结果的更仔细检查显示,性能差异主要出现在五个特定领域:艺术理论、检验医学、药学、文学和心理学。这些领域涉及相对有限的专业知识,难以获取。在查看LLaVA数据集的组成时,惊讶地发现,其包含COCO、GQA、OCR - VQA、TextVQA和VisualGenome在内的子数据集缺乏这些领域所需的专家知识,这可能是观察到性能下降的原因。这一发现也凸显了ChatVLA的巨大潜力:通过使用更合适的专业数据进行训练,相信可以在多模态理解方面取得显著更好的性能。
- 视觉文本数据与机器人数据的合适比例是多少? :在与视觉文本数据进行联合训练时,遵循ECoT中讨论的设置,将视觉文本数据与机器人数据的总体比例设置为1:3。然而,其他数据比例对多模态理解和机器人任务是有益还是有害仍需关注。因此,在相同的步数下,将联合训练中视觉文本数据与机器人数据的比例分别修改为1:1和3:1。三种设置的结果如表5所示。令人惊讶的是,较少的视觉文本数据导致了更好的性能。这与前面的分析一致,即使是有限数量的视觉文本数据也足以重新激活视觉文本对齐,并弥合基础视觉语言模型(VLM)与视觉语言动作(VLA)模型之间在现实世界交互能力方面的差距。
参考
[1] ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
#Reasoning模型复现R1经验综述
小小梦想的R1模型(复现R1)
作者复现R1基于HF的open-r1,底层使用trl库,在GSM8K数据集上进行了复现,使用了4张40G的A100和Qwen2.5 1.5B-Instruct模型。
代码在https://github.com/Mryangkaitong/deepseek-r1-gsm8k
奖励:
- 格式奖励参考了Logic-RL的工作,格式检查了以下内容:
<think>
出现在</think>
之后,<answer>
在</answer>
之后,</think>
在<answer>
之后,- 以上三种任意一种都是格式错误,奖励值出-1,其他出+1;
- accuracy_reward直接看结果是否正确,正确奖励值为1,错误奖励值为0。
参数:
作者使用了DeepSpeed Zero3,FlashAttention2, 提示词长度最大512,回答长度最大1024,每张卡1个BS,梯度累计16步, 每次采样3个回答,学习率3e-6,BF16,使用VLLM。
复现效果:

来源于https://github.com/Mryangkaitong/deepseek-r1-gsm8k/blob/main/log/log.png
作者使用Qwen2.5 1.5B-Instruct在GSM8K训练完的准确率为74.29%。
HF的Open-R1(复现R1)
github.com/huggingface/open-r1/
复现的训练步骤:

- 首先对有指令遵循的模型蒸馏DeepSeek R1的训练数据,得到Open R1-Distill;
- 对Base 模型用GRPO训练得到OpenR1-Zero;
- 对Base模型先蒸馏Open R1-Zero的指令遵循数据,再使用GRPO训练得到Open R1。
复现效果

左侧是HF Open R1,右侧是DeepSeek R1.
作者的生成使用的温度系数为0.6。
Mini-R1 (基于GRPO的用来玩小游戏的模型)
作者希望能通过GRPO的训练,让模型精通Countdown游戏。Countdown 游戏是一个数字拼图游戏,玩家使用一组随机抽取的数字和基本的算术运算 (+、-、×、÷) 来达到或尽可能接近目标数字
作者的技术文章在 https://www.philschmid.de/mini-deepseek-r1
奖励设置
- Format Reward :检查生成的格式是否满足
<think>
[thinking]</think><answer>
[answer]</answer>
的格式。满足奖励值为 1.0 ,否则为0。 - Accuracy Reward :从标签中提取方程式,并根据目标以及每个数字是否使用一次对其进行评估。
<answer>
- 生成的回答必须包含
<answer>
且必须可以被<answer>(.*?)</answer>
解析出内容,同时解析出的内容只能包含数字、运算符(+、-、*、/)、括号、点号(.)和空白字符。 - 数字使用正确:解析出的内容中的数字只能是输入的几种数字。
- 使用eval运行解析出的表达式,结果需要和答案的差异小于1e-5。
- 异常处理:报异常直接返回0.
参数设置
每个设备一个BatchSize,梯度累计8步,采样8次,使用VLLM。
观察
- 在 ~50 步时,模型已学习正确的格式。
<think>...</think>\n<answer>...</answer>
- 在 100 步时,求解方程的成功率约为 25%。模型开始用单词 "推理" ,见下面的例子。
- 在 200 步时,性能似乎收敛得慢得多,我们的成功率为 ~40%。该模型开始学习一种新的 "格式",在其中,它通过尝试不同的组合并查看结果,类似于以编程方式求解方程式,请参阅"步骤 200 和 450 之间的成功推理样本"。
- 在 450 个步骤中,我们求解方程的成功率为 50%。性能仍然缓慢提高,模型从步骤 200 开始保持其新的格式形式。

Logic-RL(复现R1)
文档链接 https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab
代码链接 https://github.com/Unakar/Logic-RL
奖励设置:
作者自己写的规则
作者发现:
我们发现模型在学习format的时候,其实是一个快速收敛--逐渐崩坏--又忽然找回format 的形式,与我们三阶段RL训练设置吻合。
还有一个有趣的小发现,在中间阶段,模型似乎认为格式反而阻碍了它的思考 :日志里看到不少例子,模型在
<answer>
tag开始后意识到自己犯错了,想重回<think>
进入思考模式,可惜被format reward狠狠惩罚了
奖励设置:
- 格式是否遵循
think> [thinking] </think><answer> [answer] </answer>
的格式。满足奖励值为 1.0 ,否则为-1.0。 - 答案是否正确:如果答案正确是2,答案可以解析但是错误是-1.5,答案不可以解析是-2
参数:
- 模型:Qwen2.5-7B-Instruct-1M
- 数据集&场景:作者使用了不到2K合成数据集。
场景:逻辑问题类似老实人和骗子的益智题,老实人总说真话,骗子总说假话,下面N个人,各有各的表述,请判断谁是骗子。
- 训练(全局GRPO):
- 预热:作者先使用一共三个人的逻辑问题作为训练集,3epoch的RL训练后,成功让qwen-7B达到了0.41。模型在10step训练里很快就能学会把format error降到0.1的占比
- 训练:高温采样设置温度系数1.2
- 退火:温度从1.2慢慢降到0.9,学习率降低到2e-7。
作者在挑选模型发现Qwen 7B MATH:
首先它指令跟随能力比较一般,很难学会format;
其次,它说话老爱用python code解题,训练很难克服移除system prompt后,还是习惯用\box{}包裹answer,还是format不行Markdown味道太重,一板一眼的,Reasoning模型本应思想跳脱一些才是。
从逻辑上确实是Qwen 7B Math更高,但是格式遵循不如Qwen Instruct模型。
作者使用了GRPO,采样数逐渐减少 64-32-16(因现存有限,每个设备的BatchSize先小后大)。
simpleRL-reason(Math模型)
Qwen2.5-7B-SimpleRL训练使用了8K条math相关的数据,
- SFT:作者先从Qwen 32B QwQ生成 对应回答,然后对基模进行蒸馏。
- RL: 作者使用GRPO,每个采样8个回答,训练模型。
Qwen2.5-7B-SimpleRL-Zero训练只有RL步骤,无SFT。
效果
(pass@1) 33.3% on AIME, 62.5% on AMC, and 77.2% on MATH。
总结
- Reasoning能力:这几个复现项目都以Qwen为基模。预训练通过较好的过滤,减少知识的冲突,提高数据质量,把世界知识灌注好,通过GRPO就可以激发模型的reasoning能力。
- 高效训练:强化学习可以参考OpenRLHF 、Ray和 生成时考虑VLLM。
- 蒸馏具有Reasoning能力的教师模型或者通过Rule-Base RL训练都可以得到不错的效果。但是蒸馏涉及到数据的选取问题,RL涉及到Rule的质量,规避Reward hacking现象。
- 通过高温采样可以得到多样性强的结果。
#VLM与VLA的区别是什么?当前自动驾驶落地的情况怎么样?
去年理想对外展示快慢系统后,VLM在自驾的应用落地正式对外展露。今年智驾行业又在主推VLA,相比于端到端+VLM方式,VLA方案拥有更高的场景推理能力与泛化能力。不少智驾领导者都将VLA视为当下"端到端"方案的2.0版本,VLA也被看成是端到端+VLM的合体。VLM关注的重点在于环境建模,VLA除了考虑环境建模,还需要关注规划和控制问题,这是两者的区别。
VLM的应用怎么样?
视觉语言模型在座舱域的应用可能更加直接,交互也容易些。这也是为什么座舱域更容易接入。VLM在自驾域的应用,分为辅助功能和直接预测轨迹。
理想的快慢系统给出了第一个辅助应用的答案,这一点发布会上有很清晰的描述。端到端模型速度快,大模型帧率低,无法实时交互,那么是否可以把VLM输出的结果给未来帧作为参考,提供一定的经验或者矫正,无论是特征级别还是后处理层面,相信是一个很好的辅助。地平线的Senna也给出了具体的方案,VLM的缺点是对于精确的数值预测不是很好,但是对于预测意图或者粗粒度的规划是很好的,E2E系统到现在依然无法解决一些复杂的长尾场景。Senna工作中,VLM做高层次的planning decisions,进而指引E2E系统的轨迹预测。

当下公开的论文,像DriveGPT、DriveGPT4、DriveVLM、OmniDrive等任务直接输出规划或预测轨迹点信息,这一点接近了VLA本身,但存在真实场景中高质量数据收集较难、实时部署较难等一系列的问题。如果只有纯视觉输入,除了参数量,本质上可以用端到端模型来替代,但参数量上来了,模型的性能上限也会出现非常大的差异。
VLA可能有哪些优势?
可以说VLA是端到端2.0,VLA的关键特性是思维链,这一点和当下的端到端有所不同,例如潮汐车道,基于VLA的智能驾驶车辆,能通过文本等看懂可逆车道的道路标志,从多重信息中确认此时的潮汐车道是否可行驶,并通过转向灯等与其他车辆交互,随即变换车道,进行转向,最终行驶至潮汐车道中。利用类人的思维,通过对全局上下文的了解,去了解车道的情况,与其他车辆交互,并做出最优的、安全的决策。
VLA大模型直接用统一的参数处理原来的分层任务,和现在的端到端模型相似。但大模型的参数量大,微调到下游任务也比较方便。
VLA具备更强的泛化能力,这一点和具身领域比较相似,零样本、新场景的泛化能力会有明显提升。
VLA在自动驾驶中应用会有哪些难点?
高质量数据依然是瓶颈,即使是finetune,怎么解决数据分布不均衡问题,怎么减少模型本身的经验导致的错误输出?
VLA的部署,算力上支持的不是很好,英伟达的Thor也许是一个很好的解决方案,千T的算力加持。极氪自研的浩瀚智驾系统率先成为全球首款搭载英伟达Thor芯片的量产车型,期待后面的自驾公司产生更多有效、稳定的方案!
VLM/VLA在训练中可以增强端到端任务
VLM和VLA也可以很有效增强现有端到端任务,主要体现在以下部分:
提升泛化能力,处理长尾场景:通过引入LLM,E2E模型能够更好地处理罕见和复杂的驾驶场景,知识迁移可以完成长尾场景的学习,大模型的零样本能力也是值得关注的点。
丰富的语义信息,辅助推理:视觉语言模型可以生成更有解释性的结果,为E2E模型提供了丰富的语义信息,帮助模型更好地理解驾驶环境。
提高规划性能,降低轨迹误差:DiMA在nuScenes数据集上实现了37%的L2轨迹误差降低。多模的轨迹输出更符合现实需求,进而减少碰撞率:VLM-AD和DiMA均显著降低了碰撞率。
知识蒸馏助力实时部署:通过将大模型的知识蒸馏到更小的模型中,可以在保持高性能的同时显著减少计算量和模型大小。
增强可解释性:VLM-AD通过预测人类可解释的动作标签,增强了模型决策的可解释性。
减少对大规模数据集的依赖:通过LLM生成的合成数据或推理注释,可以在数据稀缺或隐私受限的场景下训练模型。 VLM可以自动生成高质量的标注数据,减少人工标注的成本和时间。
#比亚迪终结高阶智驾特权时代
『天神之眼』击穿价格壁垒!
比亚迪"天神之眼"震撼登场:开启全民智驾新时代
比亚迪又一次惊艳众人,这次直接放大招,目标是把智能驾驶从"奢侈品"变成人人都能拥有的"日用品"!

2月10日晚,在比亚迪智能化战略发布会上,董事长兼总裁王传福宣布:比亚迪全系车型都将搭载"天神之眼"高阶智驾系统,首批就有21款车型稍后上市。要知道,在此之前,比亚迪的智能驾驶一直被网友调侃为"理科生的沉默",没想到这次直接甩出"天神之眼",还喊出了"全民智驾"的口号,连7万多块的海鸥都安排上了高阶智驾,这操作简直太绝了!
消息一出,资本市场迅速给出积极反馈。自消息公布起短短4天内,比亚迪的市值激增近1500亿元。这无疑是继2024年初"电比油低价格战"后,比亚迪发起的又一重大战略举措,极有可能重塑中国汽车市场的竞争格局。
这也是为什么王传福能在台上淡定表示:"技术不成熟我们就不说,但一拿出来就要大大超越预期。" 在比亚迪发布新战略后,资本市场迅速做出积极反馈。自消息公布起,比亚迪的股价一路走高。截至2月10日,短短4天内,其市值已激增近1500亿元。此次行动显然是比亚迪继2024年初的"电比油低价格战"之后,再次发起的一场重大战略举措,这场"智能普及战"有可能彻底改变中国汽车市场的竞争格局。
"天神之眼"技术矩阵:覆盖全系,各有千秋
比亚迪"天神之眼"系统根据硬件配置和功能定位,精心分为三个版本,对应不同尾标颜色,从高端到大众市场的车型全覆盖。
|-------|-----------------------|--------|-----------------------------------------------------------------------|---------------------------------------------------------------------------|---------------------------------------------------|
| 版本 | 正式名称 | 主要搭载品牌 | 硬件配置 | 功能亮点 | 适用车型 |
| 天神之眼A | 高阶智驾三激光版(DiPilot 600) | 仰望 | 集成3颗激光雷达、5颗毫米波雷达、11颗摄像头,搭载双英伟达Orin X芯片,算力高达508TOPS | 支持无图城市领航(CNOA)、高速NOA、易四方泊车等,适用于复杂城市道路和极端场景,满足如仰望U8的极端越野需求 | 专为仰望品牌旗舰车型设计(如仰望U8) |
| 天神之眼B | 高阶智驾激光版(DiPilot 300) | 腾势、比亚迪 | 采用1颗激光雷达+毫米波雷达+摄像头组合,算力254TOPS(单Orin X芯片) | 与A版功能相似,但受限于单激光雷达,复杂场景性能稍逊 | 适用于腾势Z9GT、比亚迪汉L等中高端车型 |
| 天神之眼C | 高阶智驾三目版(DiPilot 100) | 比亚迪 | 纯视觉方案,配备5颗毫米波雷达、12颗摄像头(前视三目设计)、12颗超声波雷达,搭载地平线J6M或英伟达Orin N芯片,算力96TOPS | 聚焦高速NOA、代客泊车(AVP)、城市记忆领航(MNOA),支持1000公里0接管驾驶,AEB刹停速度100km/h(未来升级至140km/h) | 覆盖7万 - 20万元区间车型,如海鸥(6.98万元起)、秦PLUS DM-i等,推动智驾技术普及 |
核心技术:软硬结合,数据驱动
硬件与算法深度融合才是关键。只堆砌硬件,那不过是一堆废铜烂铁,比亚迪深知这一点,将硬件和算法深度融合,充分释放硬件性能,展现出强大的软件实力。
- 感知系统:A/B版的激光雷达发挥着重要作用。仰望U8的3颗激光雷达实现360度无死角感知,探测距离达250米,能精准识别不规则障碍物;腾势Z9GT配备2颗激光雷达,更侧重城市复杂场景。C版的纯视觉方案也毫不逊色,采用"二郎神"前视三目摄像头(2颗800万广角 + 1颗800万长焦),通过稠密点云模拟激光雷达效果,最远探测350米,再配合毫米波雷达,实现全天候感知。
- 算力与架构:比亚迪全球首推整车厂自研车载计算平台。仰望U8的508TOPS算力支持端到端决策,腾势Z9GT的254TOPS算力则优化城市路况处理。璇玑架构更是一大亮点,整合"一脑(中央计算平台)、两端(车端 + 云端AI)、三网(车联网/5G/卫星网)",实现电动化与智能化深度协同,支持算力动态分配和算法快速迭代,还接入DeepSeek赋能车端和云端的AI双循环。
- 数据驱动迭代:比亚迪依托超过440万辆智能车的云端数据库,每月新增数十万条驾驶场景数据。这些海量数据为算法优化提供了丰富素材,形成"越开越智能"的进化模式,在数据积累和模型训练上建立起难以复制的优势。
功能场景:全链条覆盖,实用至上
"天神之眼"的功能覆盖了从高速到泊车的各个场景,实用性拉满。
- 高速与城市领航:高快领航(HNOA)能自动上下匝道、保持车道、智慧避障,面对大曲率弯道和施工路段也不在话下。无图城市领航(CNOA)更是厉害,全国范围开通,不依赖高清地图,靠多传感器融合就能识别红绿灯、在复杂路口博弈通行。
- 泊车与记忆功能:代客泊车(AVP)成功率高达99%,不管是狭窄车位还是室内外环境都能轻松应对,用户还能下车后远程操控。自动泊车精准感知,空间车位插空即停,斜列空车位也能精准识别。记忆领航(MNOA)计划2025年底OTA推送,它能学习用户高频通勤路线,自动完成红绿灯启停、路口通行。

战略意义:重构市场,引领产业变革
比亚迪这波操作,不只是技术上的突破,还蕴含着深远的战略意义。
- 成本下探与市场下沉:凭借规模化生产和自研技术,比亚迪把高阶智驾成本压缩至1.5万元以内,推动激光雷达价格向千元级迈进,成功打破"智驾 = 高价"的行业认知。7万元级的海鸥搭载DiPilot 100,直接冲击合资品牌燃油车市场。
- 产业链协同及全球化与生态协同:比亚迪拥有11万名研发团队(其中5000名是智驾工程师)和全球最大新能源汽车制造体系,具备从芯片到算法的全链路自研能力。这种垂直整合模式,不仅降低了成本,还推动了中国智能驾驶产业链的成熟。2025年海外销量同比激增83.4%,智驾技术成为拓展欧美市场的关键差异化竞争力。同时,比亚迪呼吁供应链扩产,带动激光雷达、芯片等产业链发展,构建起"技术普惠"生态。
未来展望:打造智能驾驶"中国名片"
比亚迪的全民智驾战略,不仅是企业自身的技术飞跃,更代表着中国汽车工业从"电动化领先"向"智能化引领"的转型。分析师预测,未来3 - 5年,跟不上智能化步伐的车企可能会面临淘汰。
比亚迪还计划推出"赛道无人驾驶"系统,通过扭矩矢量控制实现性能与智能的融合。其提出的"出行空间"概念,预示着汽车将从单纯的交通工具升级为生活场景的延伸。随着"天神之眼"的普及,中国智驾技术有望成为全球市场的差异化竞争力。
以前,智能驾驶就像奢侈品店里的限量款,价格高昂。现在,比亚迪把激光雷达、毫米波雷达这些"黑科技"塞进7万块的海鸥里,还让全系车型智驾版比老款最多贵5000块,相当于用一部手机的钱就能升级整套智能驾驶系统。这场技术普惠背后,是比亚迪的"阳谋"。当1000万车主同时使用智驾系统,每天产生的数据量能让算法进化速度提升十倍。就像网友说的:"现在买比亚迪等于入股自动驾驶实验室,开着开着车自己就变聪明了。"
写在最后
从今往后,谁再敢说比亚迪智驾是"瘸腿选手",网友第一个不答应!这场发布会直接把行业整破防了------以前大家吐槽比亚迪"三电技术封神,智能驾驶掉队",现在"天神之眼"一亮相,好家伙,直接让友商连夜改PPT。
这波操作可不只是技术炫技这么简单。以前智能驾驶就像奢侈品店里的限量款,动辄二三十万的车才配拥有。比亚迪这次直接把激光雷达、毫米波雷达这些"黑科技"塞进了7万块的海鸥车里,活生生把智驾配置卷成了"车圈拼多多"。
更绝的是比亚迪的"技术普惠"打法。别人家发布会晒参数,比亚迪直接晒价格表------全系车型智驾版比老款最多贵5000块,相当于用一部手机的钱升级整套智能驾驶系统。
其实这场革命早有预兆。去年王传福说要"用新能源车价格战的方式打智能驾驶"时,还有人笑他画大饼。结果人家闷声搞出个"天神三件套":仰望U8上的激光雷达阵列活像未来战车,秦PLUS的"前视三目"摄像头堪比蜻蜓复眼,最狠的是那个代客泊车功能------现场演示时,工作人员直接蒙着眼罩让车自己找车位,把观众看得直呼"这波在大气层"。
现在行业彻底被带跑偏了。以前车企开发布会必提"算力天花板""算法专利数",现在全改口说"要让老百姓用得上"。这场技术普惠的背后,藏着比亚迪的"阳谋"。他们早就算准了:当1000万车主同时使用智驾系统,每天产生的数据量能让算法进化速度提升十倍。就像网友说的:"现在买比亚迪等于入股自动驾驶实验室,开着开着车自己就变聪明了。" 这种"人民战争"式的研发模式,恐怕才是让传统车企最头疼的杀手锏。
深圳发布会现场,"智驾平权时代"六个大字滚动播放。比亚迪不仅要改写智能驾驶的游戏规则,更要重新定义"好技术"的标准------不是实验室里冷冰冰的参数,而是菜市场门口能自动避让三轮车的智能海鸥,是新手司机在暴雨天敢放心交给系统的AEB功能,是每个普通人都能触摸到的科技温度。从今往后,谁还敢说比亚迪智驾是"瘸腿选手"?这场发布会直接让行业"破防",友商估计都得连夜改PPT了!
#自动驾驶汽车的运动预测
摘要
本文介绍了自动驾驶汽车的运动预测:综述。近年来,自动驾驶领域吸引了越来越多的关注。准确预测各种交通参与者的未来行为对于自动驾驶汽车(AVs)的决策是至关重要的。本文主要研究基于场景和基于感知的自动驾驶汽车运动预测。本文提出了运动预测的形式化问题表述,并且总结了该研究领域面临的主要挑战。本文还详细介绍了与该领域相关的代表性数据集和评估指标。此外,本文将最近的研究分为两个主要类别:监督学习和自监督学习,它们反映了基于场景和基于感知的运动预测中不断发展的范式。在监督学习的背景下,本文深入检验并且分析了该方法的每个关键元素。对于自监督学习,本文总结了常用的技术。最后,本文总结并且讨论了潜在的研究方向,旨在推进AV技术这一重要领域的发展。
主要贡献
本文的贡献总结如下:
1)本文全面概述了自动驾驶汽车运动预测的最新研究,涵盖了基于场景和基于感知方法的通用流程;
2)本文总结并且讨论了未来的研究方向,为推进AV技术的发展做出了贡献。
论文图片和表格
总结
本文全面概述了自动驾驶汽车运动预测的最新进展。本文首先介绍了运动预测的表述,然后回顾了各种广泛使用的数据集。接着,详细解释了专门为运动预测设计的评估指标。最先进的预测模型已经取得了重大进展,它们采用了注意力机制、GNNs、transformers和自监督架构等先进技术。尽管这些技术取得了突破,但是该领域仍然面临着重大挑战。理解运动预测对于自动驾驶至关重要,因为它极大地提高了道路场景的可解释性,从而在提高未来自动驾驶技术的安全标准方面发挥着重要作用。
#理想汽车官宣首款纯电SUV
股价大涨、CEO罕见发声
好么 李想是我感觉最恶心的之一
在理想MEGA纯电MPV之后,理想首款纯电SUV车型正式进入公众视野。
2月25日,理想汽车通过官方社交平台发布了旗下首款纯电SUV的外观造型信息,新车命名为理想i8,不同于此前车型,该车采用了全新的外观设计,还将配备激光雷达,并采用贯穿式尾灯。
据了解,i系列是理想汽车全新的纯电SUV系列,与L系列、MEGA并列,3个产品系列共同构成完整的车型矩阵。

理想汽车CEO李想同日在社交平台罕见发文,解释了自家两大产品序列 ------L和i的含义。其表示,增程 SUV 的"L"代表"Leading(领先)",纯电 SUV 的"i"代表"intelligence(智慧)"。
受新车消息影响,港股理想汽车逆市走强,截至午间收盘,理想汽车涨超12%,盘中最高涨幅超14%。
理想汽车的首款纯电车型理想MEGA去年3月1日上市,售价55.98万元,官方原本期望其成为50万元以上、不分品类和能源形式的销量第一。但该车型上市后经历系列风波,未能实现预定目标。
在首款纯电车型上市失利后,理想汽车官方决定将原本在2024年内发布的3款纯电SUV的推迟至今年上半年。
此后理想发布的首款30万元以下的新车型理想L8很快扭转了公司遭遇的不利境遇。去年全年,理想汽车的交付量超过50万辆,同比增长33.1%,再次蝉联造车新势力销量冠军。
不过,理想汽车的头部地位正在遭遇冲击,2025年开年第一个月,理想汽车丢失连续多个月的销量第一宝座,当月交付新车29,927辆,同比下降3.97%,环比下降48.85%,成为新势力中唯一一家同环比双降的企业。
而同期小鹏汽车共交付新车30,350辆,同比增长268.88%,连续3个月交付量破3万辆的同时,时隔30个月重回造车新势力销量榜首。
#Hawk
大模型破解极端场景!港科开源Hawk:重新定义开放世界视频异常理解
视频异常检测(VAD)系统广泛应用于监控、安防、交通管理等领域,能够自动识别异常事件,如暴力行为、交通事故等,从而减少人工干预、提高效率。在大模型时代,随着大规模预训练模型,尤其是视觉语言模型(VLM)的发展,VAD的智能化水平得到了显著提升。
然而,现有VAD技术仍面临挑战。当前系统多依赖传统特征提取方法,对场景的语义理解有限 ,难以识别复杂或不规则的异常行为。同时,现有的标注数据稀缺,限制了VAD在开放世界场景中的应用,这些场景中异常行为千差万别,现有模型难以应对未见过的新型异常,并缺乏足够的自适应能力。
针对上述挑战,本研究提出了Hawk ,一个面向开放世界的视频理解和异常检测框架。HAWK通过识别异常视频和正常视频之间的运动信息差异,显式地整合了运动模态 以增强异常识别。为了加强运动信息的关注,Hawk在运动和视频空间中构建了一个辅助一致性损失 ,指导视频分支集中在运动模态上。此外,为了提升运动与语言之间的解释能力,Hawk建立了运动及其语言表示之间的明确监督关系。此外,本研究标注了超过8,000个异常视频及其语言描述,支持在多样的开放世界场景中进行有效训练,并创建了8,000对问答对,以帮助用户处理开放世界中的问题。实验结果表明,HAWK在视频描述生成和问答任务中均超越了现有的VAD基准。
Demo:https://huggingface.co/spaces/Jiaqi-hkust/hawk
Model:https://huggingface.co/Jiaqi-hkust/hawk
Dataset:https://huggingface.co/datasets/Jiaqi-hkust/hawk
Code:https://github.com/jqtangust/hawk****
1.引言
图1:在VAD中不同的架构。
(A)是传统的VAD,他使用一个二分类器来检测异常
(B)是使用多分类器整合语义信息来给出对不同类型的异常信息,仅限于检测异常帧
(C)是之前的视频理解框架,可以交互式的为用户提供丰富的语义信息(但更多关注的是长距离上下文信息,而不是异常信息),但是不能准确定位异常(因为主要依赖伪标签)
(D)为本文提出的方法,提高了异常理解能力,并使用带有丰富语义信息的注释标签来训练

1.1 问题分析
- 如图1(A)所示,对场景的语义理解较浅,用户交互不足。
- 如图1(B)所示,仅限于检测异常帧,仍需进一步手动分析来理解异常。
- 如图1(C)所示,主要依赖于伪标签进行训练,更多关注长距离上下文信息,而不是与异常相关特征。
1.2 方法
HAWK是一个交互式VLM(interactive large visual-language model),用于精确理解视频异常,如图1(D)所示。
- 正常视频和异常视频中的运动差异显著。通过双分支框架显式集成运动模态,以增强对异常的理解(3.1)。
- 增强运动注意力。基于原始视频(外观特征)和其运动之间的互信息,在紧空间中构建了一个辅助一致性损失(3.2)隐式引导视频分支关注运动相关特征。
- 增强运动与相应语言的解释。从原始描述中提取与运动相关的语言(动词及其实体),以监督运动的视觉和语言表示(3.3)。
1.3 数据集
本研究采集了来自不同场景的七个视频异常数据集,并为每个视频生成了语言描述 。此外,为了应对用户提出的开放式问题,本研究利用视频的语言描述生成潜在的QA对进行训练。由于这些数据集涵盖了多个场景,包括犯罪(UCF-Crime)、校园环境(ShanghaiTech 和 CUHK Avenue)、人行道(UCSD Ped1 和 Ped2)、交通情况(DoTA)以及人类行为(UBnormal),因此,该模型能够有效地泛化到开放世界场景中。
1.4 主要贡献
- 一个创新的视频-语言框架HAWK,旨在理解视频异常,并引入运动模态来增强其视频理解语义能力。
- 为七个不同的视频异常数据集 生成了丰富的语言描述。同时,考虑到开放世界问题的多样性,同时生成了问答对,以应对潜在的用户QA。
- 在多个场景中展示了SOTA的表现,既能进行视频异常理解,又能进行问答任务。
2. 数据工程
图2:数据集生成的流程。
(第一行)首先将视频分割为片段密集片段并生成描述,然后通过将"描述+prompt"输入给GPT4来生成与异常视频相关的描述,并且要人工检查出错误的
(第二行)将"两个原则+prompt"输入给GPT4来生成问题,并通过人工选出最合适的100个问题,将他们随机分给不同的视频,然后将上面的"描述+问题+prompt"输入给GPT4来生成答案

2.1 原理 2.1.1 语言描述
对7个数据集进行详细的语言描述标注,涵盖了多种异常场景:
- 犯罪(UCF-Crime)
- 校园(ShanghaiTech、CUHK Avenue)
- 人行道(UCSD Ped1、Ped2)
- 交通(DoTA)
- 人类行为(UBnormal)
2.1.2 开放性问题
为每种场景构建了开放式的QA对,进一步增强模型对用户各种问题的实际回答能力。过程如图2所示。数据格式如下:

2.2 异常视频描述生成流程
- 首先将视频拆分为密集的片段,确保捕捉到关键信息
- 使用感知工具(InternVideo、Tag2Text、GRiT)自动生成每个片段的描述(UCF-Crime本身就有)
- 将 描述 + prompt(生成与视频异常相关的具体描述)给GPT-4来为每个视频生成与异常相关的描述
- 人工检查不准确的标注
2.3 以人为中心的QA对生成
虽然已经获得准确的异常视频描述。但仍可能面临用户提出的更开放性问题的挑战。
2.3.1 两个原则
- 与异常相关:问题应与视频中的异常紧密相关
- 5W2H:What、Who、Where、When、How、How much和Why
2.3.2 流程
- 将"两个原则+prompt"输入GPT-4来生成异常视频的开放性问题
- 人工选择出最合适的100个问题,随机分配给每个视频
- 将"问题+prompt"输入GPT-4来为<QUESTION>生成<ANSWERS>
3. 方法
图3:Hawk的总览。在训练过程中,旨在优化3个损失:
(1)原始视频到语言匹配损失,为了生成一般性的语言描述
(2)原始视频到运动一致性损失,为了让原始视频更关注与运动相关的
(3)运动到语言匹配损失,为了让模型更好的描述运动

3.1 显式集成运动模态
HAWK专门集成了运动模态,采用架构相同但权重独立的双分支结构集成视频和运动信息,形成视觉标记嵌入。最终,通过结合视觉标记嵌入 和文本嵌 ,输入给 LLaMA-2 来生成最后的响应 ,整体推理过程如下:
- 表示用于提取外观特征的 输入
- 表示用于提取运动特征的 输入, 表示运动提取器
- 和 分别表示原始视频理解网络和运动理解网络,架构由一个 EVA-CLIP 和一个预训练的 Video Q-Former 组成
- 和 表示对于视频和运动的可学习的投影网络,旨在将视觉(视频和运动)嵌入投影到语言特征空间
- 表示冻结的文本标记到嵌入的投影,旨在使文本信息可以输入到 LLaMA-2 中
- 表示组合输入 prompt:"Here is the input video embedding: <VIDEO_EMBEDDING>and motion embedding<MOTION_EMBEDDING>in different frames,please help me to<DESCRIBE_VIDEO>|."其中 <DESCRIBE_VIDEO>是视频描述生成的问题类别,<QUESTION>是视频问答的问题类别
3.2 隐式集成运动模态
3.1虽然集成了运动模态来微调HAWK,但是视频分支和运动分支独立运行,所以视频分支不能提取出**关注异常发生区域(运动)**的外观特征。
3.2.1 提取运动
- 表示在时间步 的运动描述,使用了 Gunnar Farneback 算法,用于生成两个连续帧之间的运动信息
- 表示在时间步 和 的视频帧
- 包含来自水平和竖直两个方向的运动向量
接着,使用这些通道的光流幅度作为 Mask,归一化到[0,1],并与原始视频外观进行相乘,以遮蔽其他非运动区域:
- 表示逐像素相乘
- 表示在时间步 的原始视频和运动信息
3.2.2 构建损失
图4:Hawk的损失可视化。
① 表示原始的视频到语言损失
② 表示运动模态适应的余弦相似度损失
③ 表示运动到语言损失

因为 仅包含关键的异常信息,且从 中提取而得。为了让外观特征(原始的视频)可以更加集中在运动区域,就需要将 和 压缩到一个紧凑的空间。最后的 损失如下:
- 表示压缩函数
- 与 共享一些初始的浅层参数(见图 3)
- 表示 通过压缩函数压缩后的紧凑表示
- 表示 通过压缩函数压缩后的紧凑表示
3.3 解释运动到语言
在集成了运动模态(3.1 和 3.2)的基础上,Hawk 进一步增强运动到语言的解释。
3.3.1 提取与运动相关的语言
基于语言中运动的表示主要来自动词及其相应的实体,首先对原始句子进行依赖关系分析:
- 表示依赖解析
- 表示真实值
- 表示依赖结构图,表示句子中词汇之间的句法关系
根据依赖结构图,可以提取动词 以及相关的实体(主语 ,宾语 ,间接主语 ,间接宾语 ),然后组合成表示运动的短语:
- 是运动语言提取器
- 是与运动相关的语言
3.3.2 构建损失
在视觉和语言表示中的运动之间建立监督,实现运动-语言匹配作为辅助损失:
- 是交叉嫡损失
- 表示单词数量
3.3.3 优化目标
如图 4,结合 (3.2.2,图4(2))和 (3.3.2,图4(3)),在原始视频到语言匹配损失 (图4(1)的基础上,形成最终的训练优化目标:
4. 实验 4.1 实验设置
图5:训练与测试。分为三个阶段:
(1)预训练:在 WebVid 数据集上进行预训练来获取对视频内容的一般性理解
(2)微调:使用8,000个视频微调模型的异常理解能力,其中训练数据和测试数据的占比为9:1,并在此阶段联合训练视频描述生成和视频问答两个任务
(3)在测试集中独立评估这两个任务,以确保模型的有效性

4.2 定量评估
表1:定量评估baseline和HAWK方法的性能。红色表示指标第一,蓝色表示指标第二。
(A)表示对异常视频描述生成任务的各指标比较
(B)表示对视频问题回答任务的各指标比较

4.3 定性评估
表2:定性评估baseline和HAWK方法的性能。红色表示关键语义信息不一致,绿色表示生成结果与真实值很接近,黄色表示生成结果存在的问题。
(A)表示对异常视频描述生成任务的各指标比较
(B)表示对视频问题回答任务的各指标比较

4.4 消融实验
表3:两种任务的消融实验的定量评估。红色表示指标第一,蓝色表示指标第二。
(A)表示对异常视频描述生成任务的各指标比较
(B)表示对视频问题回答任务的各指标比较

表4:两种任务的消融实验的定性评估。红色表示关键语义信息不一致,绿色表示生成结果与真实值很接近,黄色表示生成结果存在的问题。

5. 结论
本研究提出了Hawk,一个创新的视频-语言框架,用于理解各种场景中的视频异常。通过结合运动特征和构建丰富的语言描述,Hawk在开放世界场景中展示了优越于VAD基线的表现。它具有在多个领域的实际应用潜力,并推动提升模型与用户的互动性,从而能够更高效、有效地解决用户关于视频异常的特定问题。
#FSD突然降临中国
不同车型逐批推送,老车主苦等多年终梦圆
FSD入华,官宣了。
盼星星,盼月亮,特斯拉中国车主等到了FSD,行业迎来了最强鲶鱼。
全民智驾元年,冲刺L3的当口,对岸的独孤求败终于对上了国内的智驾群雄。
技术上的强弱暂且未知,体验技术的门槛却实实在在摆在眼前。
FSD要如何打动车主,花6.4万元选购?
FSD,来了!
特斯拉发布了2024.45.32.12版本的更新通知,通知内容主要包括三部分:
- 城区道路Autopilot,分批推送。
- 驾驶室摄像头,可以判断是否集中注意力开车,并做出提醒。
- 地图包更版本更新。
所谓城区道路的Autopilot,就是我们常说的FSD,现售价6.4万元,支持分期购买,每月5219元。
根据通知内容,FSD可以根据导航引导车辆驶出匝道和交叉口,识别信号灯,直行、转向和掉头等,可以自动变道。
不设置导航路线也能开,FSD会根据实际情况选择最优道路行驶。
特斯拉最后强调,城区Autopilot已在部分车型推出,将逐步扩展适配的车型范围。
最强智驾鲶鱼,正式登场。车主圆梦,网友热议。
最值得关注的话题,当然是国产智驾与FSD的对比。
FSD来了,然后呢?
FSD入华靴子终于落地,来的有些突然。
因为就在1月底,马斯克刚承认过,FSD入华面临着技术挑战。
在2024年度财报电话会议上,马斯克拿中国的公交车道举例,形容其"非常复杂",比如这种:
然而没想到,短短一个月后,FSD真的来了。
FSD在中国能带来的体验,还不知道有多高。
但目前体验FSD的门槛确实不低。
最便宜的Model 3后驱版现售价23.55万元,如果选装上6.4万元的FSD,整车落地接近30万元,购车成本一下子上去了。
再从两个方面对比一下当前FSD的价格。
先和自己比,美国当前FSD的选装价格为8000美元,按当前汇率计算,折合人民币约为57986元,比国内便宜6000块。
同时支持月租,每月费用为99美元,约合人民币717元/月。
和国内头部智驾玩家对比,理想和小鹏都是随车附送。
华为的智驾包则需选装,一次性买断的价格是3万元,不过车子上市时一般会有权益优惠,这个价格在不同时期有浮动,目前选装价格为1万元。
此外,特斯拉去年还在美国推出过免费试用1个月的政策,国内是否会同步跟进,FSD面对国内群雄售价是否会调整,都值得期待。
最后,既然FSD都入华了,那同样搭载FSD的Cybercab将来有希望在国内落地吗?
在马斯克坚定不移的推进下,Cybercab朝着6月落地的目标前进,进展飞快。
据特斯拉工程副总裁Lars Moravy透露,Cybercab落地时,将支持"公路旅行"。
言外之意,就是运营范围不仅限于城区。
然而有意思的是,特斯拉位于得州的超级工厂近期被拍到Cybercab的测试车数量变多了。
有的测试车还带有方向盘:
暂且不知这是传说中的"Model 2",还是Cybercab为了上路路测的"妥协"。毕竟此前的Robotaxi玩家们,很少出现一落地便拿掉方向盘的操作。
Robotaxi是特斯拉的未来的增长曲线,FSD入华则是特斯拉当前的增长动能。
问题是FSD入华,会给特斯拉带来多大的增长?
国内智驾玩家将如何应对?
#OG-Gaussian
直达143 FPS!OG-Gaussian利用占据网格语义信息「降本增效」
摆脱LiDAR如何重建自驾场景
重建逼真且几何精确的三维场景长期以来一直是计算机视觉的一个关键目标。随着神经辐射场(NeRF)和三维高斯喷溅(3DGS)等技术的进步,生成高精度的三维模型变得更加可行。这些技术大大增强了虚拟环境的真实感,并在医学成像、手术导航和虚拟现实等多个领域具有重要应用。在自动驾驶领域,这些重建技术能够提供周围环境的精确三维模型,包括街道、建筑物甚至动态物体。这种能力提升了自动驾驶系统的导航能力,并使极端场景的仿真成为可能,扩展了现实的边界,同时对其进行了数字化。
为了实现自动驾驶场景的高精度重建,NeRF被用作基础技术,通过神经网络将场景表示为连续的三维体积。虽然这种方法能够生成高质量的户外场景,但其缺点是需要大量的训练资源且渲染速度较慢。随着三维高斯喷溅(3DGS)的出现,这种低成本、快速渲染的三维场景重建方法迅速获得了广泛关注。原生的3DGS并不适合处理包含动态物体的大型户外场景 。为了将该技术适配于自动驾驶场景重建,现有的3DGS研究将注意力集中在结合LiDAR生成的点云并使用标注的三维边界框来重建包含动态物体的街道场景上。它们成功地将动态物体从静态背景中分离出来,取得了低训练成本下的良好重建效果。
然而,这些技术仍然需要:
- 昂贵的LiDAR来生成点云
- 需要带有预标注动态车辆边界和轨迹的数据集。
为了缓解这一限制,将占据预测网络(ONet)引入自动驾驶感知领域,并应用于三维场景重建。由于ONet将现实世界建模为具有语义信息的体素网格,我们可以消除对昂贵的LiDAR的需求,同时解决边界框无法捕捉未标注物体的问题。
本文介绍的OG-Gaussian[1]是一种新的自动驾驶场景重建方案。我们的方法首先通过安装在车辆上的摄像头捕捉周围视野图像。然后,我们使用占据预测网络(ONet)获取周围环境的占据网格(OG)信息。通过利用占据网格中的语义信息,我们将原始场景分为街道场景和动态车辆。接着,我们将背景街道的占据网格转换为点云,并通过二维图像投影将动态车辆的网格转化为初始点云集合。我们的方案不依赖昂贵的LiDAR点云作为初始点云,而是将通过占据网格获得的点云作为低成本的替代先验。这些点云将被转换为可优化的高斯椭球集。为了追踪动态车辆,我们将其初始点的位置和旋转矩阵定义为可学习的参数。这使得我们可以优化车辆的姿态和轨迹,描述动态车辆在现实世界中的运动方式。通过这种方式,我们的方法无需预标注的轨迹或动态物体的边界框。最终,优化后的高斯椭球将投影到二维空间中,渲染重建的自动驾驶场景。
我们在Waymo开放数据集上进行了实验,结果表明,OG-Gaussian在重建质量和渲染速度方面与当前的最先进方法相当,并且在不依赖LiDAR或任何标注的情况下,取得了平均PSNR为35.13,渲染速度为143 FPS。我们还进行了消融研究,以验证使用处理过的占据网格作为先验在重建自动驾驶场景中的有效性。我们为后续任务提供了一种快速、低成本的三维场景重建方法。
主要贡献:
- 我们介绍了OG-Gaussian,将占据网格融入到自动驾驶场景的重建中。这种方法消除了依赖昂贵的LiDAR生成初始点云的需求,仅需图像输入,并显著降低了三维场景重建的成本。
- 我们利用占据网格的语义特性将动态车辆从静态背景中分离出来,并估计其姿态,消除了动态物体手动标注的需求。
- 通过广泛的实验,我们的方法在重建质量和渲染速度方面与最先进的方法相当,平均PSNR为35.13,渲染速度为143 FPS,且不依赖LiDAR或任何标注。
具体方法
OG-Gaussian
在本节中,我们重点介绍OG-Gaussian的基本结构,并说明如何使用两组不同的点云来表示街道场景和动态车辆。以下是我们方法的详细解释。
街道模型
街道模型的初始点云是一组在世界坐标系中的点。根据前面的介绍,三维高斯的参数可以通过协方差矩阵和位置向量来表示。协方差矩阵可以分解为旋转矩阵和缩放矩阵,恢复过程如下:
除了协方差矩阵和位置矩阵外,每个高斯包含一个参数来表示不透明度和一组球面谐波系数(公式6),用来表示场景的外观。公式6中的和是定义具体球面谐波函数的度和阶。为了获取原始视图的颜色信息,我们还需要将球面谐波系数与从视角方向投影的球面谐波基函数相乘。为了获得每个高斯的语义信息,我们将logit 加入到每个点,其中表示语义类别的总数。
动态车辆模型
自动驾驶场景包含多个移动的车辆,我们也需要使用一组可优化的点云来表示它们。观察动态车辆时,由于其位置的变化,周围空间发生了显著的变化,因此很难直接使用3DGS来重建它们。我们使用成熟的检测和分割模型,基于占据网格的语义信息提取动态车辆物体,并根据其位置在车辆坐标系中提取初始动态点云。
动态车辆和街道的高斯属性是相似的,它们对不透明度和缩放矩阵有相同的含义。然而,正如前面所提到的,它们的位置和旋转矩阵是在车辆坐标系下的,这与街道场景不同。为了避免使用地面真实姿态值,我们通过跟踪其姿态来表示动态车辆的实际状态。车辆的姿态可以通过旋转矩阵和位移向量表示,如下:
其中,和分别是每个高斯在世界坐标系中的位置矩阵和旋转矩阵,和是相对于车辆的物体位置和旋转矩阵。根据先验知识,我们可以通过和得到动态车辆的协方差矩阵。为了获得更准确的车辆姿态,我们将每帧的旋转矩阵和位置矩阵作为参数(如公式8所示),然后使用它们来获得车辆的位置和轨迹,而不依赖于动态物体的真实轨迹。
动态车辆模型的语义表示与街道模型不同,街道模型中的语义是一个维向量(是语义类别的数量),而车辆模型的语义只有两个类别:车辆和非车辆(来自占据预测结果),因此它是一个一维标量。
在街道模型中,我们使用球面谐波系数表示场景的外观。但在处理动态车辆时,其位置随着时间变化。因此,使用多个连续的球面谐波系数表示动态物体在每个时间戳下的外观是浪费的。相反,我们将每个球面谐波系数替换为一组傅里叶变换系数,在构建四维球面谐波系数时,加入时间维度,以便可以通过离散傅里叶变换恢复给定时间步的。
占据先验与周围视图
原始的3DGS通过结构光法(SfM)生成稀疏点云作为先验。对于重建大规模的街道场景,直接使用SfM点云来表示动态物体和复杂的街道场景会产生明显的几何误差和不完整的恢复。为了为3DGS提供准确的初始化点云,我们将ONet预测的结果转换为初始化点云,以获得准确的几何信息,并在多个摄像头视角下保持一致性。
具体而言,我们根据占据网格的语义信息提取车辆点云,并将每个时间戳的车辆位置定义为。如果,我们可以将该车辆标记为动态物体,其中表示用于确定其为动态物体的位移阈值。
为了生成更密集的点云来表示动态车辆,我们以的体素大小对动态物体的点云进行上采样。然后,我们将这些点云投影到相应的图像平面,并通过查询像素值为它们赋予颜色。对于每个动态车辆的初始点,我们将其坐标转换为相机坐标系,然后执行公式9所描述的投影步骤,其中是图像的二维像素,是每个相机的内部参考矩阵,和分别表示正交旋转矩阵和位移向量。
最后,我们将剩余的占据网格转换为密集的点云,并将其位置取自中心坐标。静态和动态物体的初始点云生成过程如图3所示。除此之外,我们还将通过COLMAP生成的点云与生成的点云结合,以处理远处的建筑物。
通过高斯喷溅进行全局渲染
为了渲染整个OG-Gaussian,我们汇总每个高斯的贡献来生成最终图像。以前的方法使用神经场表示场景,在合成场景时需要考虑光照复杂性等因素。我们的OG-Gaussian渲染方法基于3DGS,通过将所有点云的高斯投影到二维图像空间,从而实现高保真度的自动驾驶场景渲染。
给定一个渲染时间戳,我们首先使用公式6计算球面谐波系数。然后,将点云从车辆坐标系转换到世界坐标系,我们将街道模型和动态模型合并成一个全局模型。使用相机的外参和内参,我们将点云投影到二维平面,并计算每个点在二维空间中的参数。在公式10中,是的雅可比矩阵,而和分别表示二维图像空间中的位置和协方差矩阵。
之后,我们可以根据点云的不透明度计算每个像素的颜色。在公式11中,是透明度和二维高斯概率的乘积,而是从特定视角方向的球面谐波中得到的颜色。
实验效果
总结一下
OG-Gaussian是一种高效的方法,将占据网格(OGs)融入3DGS用于重建户外自动驾驶场景。我们的方法利用占据网格提供的先验进行场景重建,同时分离并重建动态车辆与静态街道场景。我们的表现与依赖LiDAR的现有最先进技术相当,但仅依赖于相机图像。我们的方法将使未来的研究人员能够快速且低成本地重建自动驾驶场景,为自动驾驶技术的发展做出贡献。
参考
[1] OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving
#VLM-E2E
多模态注意力融合增强端到端自动驾驶
摘要
本文介绍了VLM-E2E:通过多模态驾驶员注意力融合来增强端到端自动驾驶。人类驾驶员通过利用丰富的注意力语义来熟练地在复杂场景中导航,但是目前的自动驾驶系统难以复制这种能力,因为它们在将2D观测转换到3D空间时往往会丢失关键的语义信息。从这个意义而言,这阻碍了它们在动态且复杂的环境中的有效部署。利用视觉语言模型(VLMs)卓越的场景理解和推理能力,本文提出了VLM-E2E,这是一种使用VLMs通过提供注意力线索来增强训练的新框架。本文方法将文本表示集成到鸟瞰图(BEV)特征中以进行语义监督,这使得模型能够学习更丰富的特征表示,这些表示显式地捕获驾驶员的注意力语义。通过着重于注意力语义,VLM-E2E能够更好地与类人驾驶行为相一致,这对于在动态且复杂的环境中导航是至关重要的。此外,本文还引入了一种BEV-文本可学习的加权融合策略,以解决融合多模态信息时模态重要性不平衡的问题。该方法动态地平衡了BEV和文本特征的贡献,确保了视觉和文本模态的互补信息得以有效利用。通过显式地解决多模态融合中的不平衡问题,本文方法有助于更全面、更鲁棒地表示驾驶环境。本文在nuScenes数据集上评估了VLM-E2E,并且证明了其优于最先进的方法,展现了性能的显著提升。
主要贡献
本文的主要贡献总结如下:
1)本文提出了VLM-E2E,这是一种利用VLMs通过注意力理解来丰富训练过程的新框架。通过结合语义和上下文信息,VLM-E2E显式地捕获了驾驶员的注意力语义,这使其能够在复杂的驾驶场景中做出更人性化的决策;
2)本文引入了一种BEV-文本可学习的加权融合策略,该策略动态地平衡了BEV和文本模态的贡献。这种自适应融合机制在计算上是高效的,它需要最少的额外开销,同时显著地增强了模型的适应性和鲁棒性;
3)为了解决VLMs的幻觉问题,本文结合了从前视图像中生成的文本描述的语义细化。通过利用真值(GT)标签和高级行为意图,确保了文本表示既准确又与驾驶任务高度相关,从而增强了模型对关键驾驶线索的推理能力;
4)在nuScenes数据集上进行的大量实验证明了VLM-E2E优于现有的方法。本文框架在处理复杂的驾驶场景方面取得了重大改进,展现了其将几何精度与高级语义推理相结合的能力,以实现更安全、更可解释的自动驾驶。
论文图片和表格
总结
本文提出了VLM-E2E,这是一种利用VLMs来增强对驾驶员注意力语义理解的新端到端自动驾驶框架。本文方法的目标是为了解决现有系统中的关键局限性,例如多传感器融合中的模态不平衡、高级语义上下文的利用不足以及轨迹规划中缺乏可解释性。为此,本文引入了一种BEV-文本可学习的加权融合策略来动态地平衡几何和语义特征、一个时空模块来确保动态场景中的时间连贯性以及一个具有注意力引导轨迹优化的概率未来预测模块。这些组件共同使本文框架能够在感知、预测和规划任务中实现鲁棒且可解释的性能。未来工作将着重于扩展该框架,以将VLMs和E2E加入一个统一的框架中,并且利用激光雷达和雷达模态在长尾场景中泛化所提出的模型。