51c自动驾驶~合集12

自己的原文哦~https://blog.51cto.com/whaosoft/11669163

#LiCROcc

性能提升44%！浙大提出LiCROcc：Radar Occ的春天来了？

语义场景补全（SSC）是自动驾驶感知中至关重要的技术，经常面临天气和照明变化的复杂性。现有策略包括融合多模态信息以增强系统的鲁棒性。雷达作为3D目标检测中重要的传感器，逐渐在自动驾驶应用中取代激光雷达，并且可以提供更鲁棒的感知替代方案。本文们专注于3D雷达在语义场景补全中的潜力，开创了跨模态细化技术，以提高对天气和照明变化的鲁棒性，并增强SSC性能。

在模型架构方面，本文提出了一种三阶段的紧密融合方法在BEV上实现点云和图像的融合框架。基于此基础设计了三个跨模态蒸馏模块---CMRD、BRD和PDD。我们的方法通过将激光雷达和相机的丰富语义和结构信息蒸馏到 radar-only（R-LiCROcc）和雷达-相机（RC-LiCROcc）的配置中，增强了性能。最后本文提出的LC-Fusion（教师模型）、R-LiCROcc和RC-LiCROcc在nuScenes-Occupancy数据集上取得了最佳性能，其中mIOU分别超过基线22.9%、44.1%和15.5%。

源码链接： https://hr-zju.github.io/LiCROcc/

#MARS

纽约大学最新MARS数据集，支持多agent、多次穿越和多模态！

大规模数据集推动了基于人工智能的自动驾驶车辆研究的近期进展。然而，这些数据集通常是从单一车辆一次性通过某个地点收集的，缺乏多代理交互或对同一地点的多次穿越。这类信息可能导致自动驾驶车辆的感知、预测和规划能力的变革性提升。

为了弥补这一差距，作者与自动驾驶公司 May Mobility 合作，推出了MARS数据集，该数据集统一了支持多代理、多次穿越和多模态自动驾驶车辆研究的环境。更具体地说，MARS是通过一队自动驾驶车辆在特定地理区域内行驶时收集的。每辆车都有自己的路线，不同的车辆可能会出现在附近的位置。

每辆车都配备了激光雷达和全景RGB摄像头。

作者在MARS中精心策划了两个子集：一个促进多辆车同时出现在同一地点的协作驾驶，另一个通过多辆车异步穿越同一地点来实现记忆回顾。

作者在地点识别和神经重建方面进行了实验。更重要的是，MARS引入了新的研究机会和挑战，如多次穿越的3D重建、多代理感知和无监督物体发现。

作者的数据和代码可以在https://aitce.github.io/MARS/找到。

1 Introduction

自动驾驶技术有望从根本上提高道路安全性和交通效率，近年来通过人工智能技术取得了显著进展。大规模、高质量的实时数据对人工智能驱动的自动驾驶车辆（AVs）提高其感知和规划能力至关重要[1, 15]：AVs不仅可以从标注数据集中学习检测目标[16]，还可以基于过去的驾驶记录生成数字孪生，以创建安全关键情景[17]。

开创性的KITTI数据集[1]为检测和跟踪等任务设立了最初的基准。自其推出以来，已有许多数据集被提出以促进自动驾驶的发展；见表1。

两个具有代表性的数据集是nuScenes[8]和Waymo数据集[9]，它们引入了从相机和测距传感器收集的多模态数据，提供了360度全景视野的场景理解。这些数据集将关注点从KITTI的单目相机转移开，受到了视觉和机器人学领域的广泛关注。

现有的驾驶数据集通常关注地理和交通多样性，但没有考虑到两个实际维度：多代理（协作）和多遍历（回顾）。协作维度强调了位于同一空间区域内的多辆车之间的协同作用，促进它们在感知、预测和规划方面的合作。回顾维度使车辆可以通过利用之前访问同一地点的视觉记忆来增强其3D场景理解。融合这些维度可以解决在线感知的感测能力有限和离线重建视角稀疏等问题。然而，现有的数据集通常是由单个车辆在一次特定地理位置的遍历中收集的。为了推进自动驾驶车辆的研究，尤其是在协作和回顾维度上，研究界需要一个更全面的、真实驾驶场景下的数据集。为了填补这一空白，作者推出了Open MARS 数据集，它提供了多代理、多遍历和多模态记录，如图1所示。所有记录都来自May Mobility1在密歇根州安娜堡运行的自动驾驶车辆。多代理。作者部署了一支自动驾驶车队在一个指定的地理区域内导航。这些车辆可以同时处于同一地点，允许通过车辆间通信进行协作3D感知。

多遍历。作者在相同的空间区域内捕获了多次遍历，这些遍历在不同的光照、天气和交通条件下进行。每次遍历可能遵循独特的路线，覆盖不同的驾驶方向或车道，从而产生多条轨迹，提供了3D场景的多样化视觉观察。多模态。作者为自动驾驶车辆配备了具有360度全景视野的RGB相机和激光雷达。这套全面的传感器套件能够实现多模态和全景场景理解。

作者在位置识别和神经重建方面进行了定量和定性实验。更重要的是，MARS为视觉和机器人学社区引入了新的研究挑战和机遇，包括但不限于多代理协作感知和学习、重复遍历下的无监督感知、持续学习和多代理或多遍历的神经重建及新颖视图合成。

2 Related Works

自动驾驶数据集。 高质量的数据集对推进人工智能驱动的自动驾驶研究至关重要[18, 19, 8]。开创性的KITTI数据集在机器人感知和地图绘制领域引起了广泛关注。从那时起，大量数据集被提出，通过解决多模态融合、多任务学习、恶劣天气和密集交通等挑战，推动了该领域的发展。近年来，研究行人提出多智能体协作以摆脱单一智能体感知的限制，例如频繁的遮挡和远距离稀疏性。以前在整理多智能体数据集方面的努力通常受到模拟环境的限制[33, 34]。最近的V2V4Real[13]支持现实世界中的车辆间协同目标检测和跟踪，但双相机设置不足以进行环视感知。另一个相关数据集Ithaca365[12]，在不同光照和天气条件下对同一路线的重复穿越进行记录，但只用前视相机收集数据。一些工作收集多穿越数据用于地图变化，如Argoverse 2数据集[4]，而一些近期工作基于Argoverse 2建立3D重建方法或模拟器[35, 36]。

还有几项工作专注于长期视觉定位[37]，例如牛津RobotCar数据集[38]和CMU Seasons数据集[39]。然而，这些数据集没有考虑多智能体驾驶的情景。为了填补这一空白，作者的MARS数据集提供了具有全景相机视角的多智能体、多穿越和多模态驾驶记录；见表1。值得注意的是，May Mobility车队的持续和动态运营使作者的MARS数据集在规模和多样性方面脱颖而出，具有单个地点数百次穿越的记录，并支持多达四辆车的协同驾驶，从而创下了穿越次数和智能体数量的记录。

视觉地点识别。 在计算机视觉和机器人学领域，视觉地点识别（VPR）具有重要意义，它基于视觉输入实现特定地点的识别[40]。具体来说，VPR系统通过将给定的 Query 数据（通常是图像）与现有的参考数据库进行比较，并检索与 Query 最相似实例来工作。对于在GPS不可靠环境中运行的基于视觉的机器人，这种功能至关重要。VPR技术通常分为两类：传统方法和基于学习的方法。传统方法利用手工制作的特征[41, 42]生成全局描述符[43]。然而，在实际应用中，_外观变化_和_有限视角_会降低VPR性能。为了解决_外观变化_的挑战，基于学习的方法利用深度特征表示[44, 45, 46]。除了基于图像的VPR，还提出了基于视频的VPR方法[47, 48, 49]，通过视频剪辑实现了更好的鲁棒性，缓解了_有限视角_的问题。此外，CoVPR[50]引入了协同表示学习用于VPR，在多智能体协作与地点识别之间架起了桥梁，并通过利用合作者的信息解决了_有限视角_的问题。除了2D图像输入，PointNetVLAD[51]探索基于点云的VPR，为地点识别提供了一个独特的视角。在本文中，作者评估了单一智能体VPR和协同VPR。

自动驾驶中的NeRF。 神经辐射场（NeRF）[52]在无边界驾驶场景中最近受到了很多关注，因为它不仅促进了高保真神经模拟器[17]的发展，还实现了对环境的高分辨率神经重建[53]。关于新颖视图合成（NVS），研究行人已经解决了可扩展的神经表示与局部块[54, 55]、具有组合场的动态城市场景解析[56, 57]以及具有目标感知场的全景场景理解[58, 59]等挑战。关于神经重建，研究行人已经实现了基于激光雷达点云和图像输入的体面重建[60, 61]。同时，在无需依赖激光雷达的多视图隐式表面重建方面也做了许多努力[53]。基于NeRF的现有方法受到有限视觉观察的限制，通常依赖于沿狭窄轨迹收集的稀疏相机视角。利用额外的相机视角（无论是来自多个智能体还是重复穿越）丰富视觉输入并提高NVS或重建性能，还有很大的潜力尚未挖掘。

3 Dataset Curation

Vehicle Setup

表2：每辆车的May Mobility传感器套件规格。

图2：用于数据收集的车辆平台传感器设置。

传感器设置。_May Mobility_的车队包括四辆丰田塞纳，每辆车上都安装有一个激光雷达、三个窄角度RGB相机、三个广角度RGB鱼眼相机、一个IMU和一个GPS。这些传感器具有不同的原始输出频率，但所有传感器数据最终都会同步采样到10Hz。为了节省存储空间，相机图像会被降采样。这些传感器的详细规格列于表2中。一般来说，激光雷达位于车辆前部顶部。三个窄角度相机位于车辆的前方、前左方和前右方。三个鱼眼相机位于车辆的后部中央、左侧和右侧；见图2。IMU和GPS位于车辆顶部中央。这些传感器的显式外部参数以旋转和平移的形式表示，将传感器数据从其自身的传感器坐标系变换到车辆的自坐标系。对于每辆车上的每个相机，作者提供了相机的内在参数和失真系数。失真参数是通过AprilCal校准方法[62]推理得出的。

**坐标系。**有四个坐标系：传感器坐标系、自坐标系、局部坐标系和全局坐标系。传感器坐标系代表一个以单个传感器中心为原点的坐标系。自坐标系代表一个以自车后轴中心为原点的坐标系。局部坐标系代表一个以自车当日轨迹起点为原点的坐标系。全局坐标系是世界坐标系。

Data Collection

目前，May Mobility专注于微服务交通，在各个方向和顺序上运行固定路线的穿梭车辆。全程超过20公里，涵盖住宅、商业和大学校园区域，在交通、植被、建筑和道路标记方面具有多样化的环境。车队每天在下午2点到8点之间运营，因此涵盖了各种光照和天气条件。总的来说，May Mobility独特的运营模式使作者能够收集多遍历和多代理自动驾驶数据。

**多遍历数据收集。**作者在驾驶路线上总共定义了67个位置，每个位置覆盖一个直径为50米的圆形区域。这些位置涵盖了不同的驾驶场景，如交叉口、狭窄街道和长直路，以及各种交通条件。每天在不同时间，每个位置都会从不同方向进行遍历，确保对这一区域在物理和时间上的全面感知。作者通过车辆的GPS位置确定它是否正在穿越目标位置，并在车辆位于50米半径区域内时收集数据。遍历被过滤，使得每次遍历的时长介于5秒到100秒之间。

**多代理数据收集。**作者数据集的一个亮点是，作者提供了真实世界的同步多代理协同感知数据，实现了极其详细的空间覆盖。根据车辆的GPS坐标，作者提取了30秒的场景，在这些场景中，两辆或更多的自主车辆在9秒以上的时间里彼此距离不足50米，集体在同一时间从不同角度提供对同一区域的覆盖性感知。对于遭遇持续时间不足30秒的场景，将遭遇部分置于30秒持续时间的中心，前后分别填充相等时间的非遭遇部分（例如，20秒的遭遇部分通过在前后各增加5秒扩展为一个30秒的场景）。这种遭遇可以在地图的任何地方发生，构成了如图7所示的沿直线道路尾随和交叉口相遇等场景。作者的方法还确保了场景中的至少一辆车辆在30秒内行驶超过10米。

Dataset Statistics

图4：多穿越子集统计。

图5：每个地点的穿越次数和帧数。

图3：多代理子集统计。

图6：日景和夜景的比例。

多穿越子集包含了从2023年10月4日至2024年3月8日共26个不同天数的数据，其中4天有雨。作者总共收集了5,757次穿越，包含每个摄像头超过140万帧的图像以及360度激光雷达点云数据。在67个地点中，有48个地点超过20次穿越，23个地点超过100次穿越，6个地点超过200次穿越。平均每次穿越含有250帧（25秒），大多数穿越包含100到400帧（10到40秒）。所有地点穿越和帧的具体分布分别展示在图4和图5中。多代理子集包含了从2023年10月23日至2024年3月8日共20个不同天数的数据。作者收集了53个持续30秒的场景，每个场景稳定地包含297到300帧，总计超过15,000帧的图像和激光雷达点云数据。在53个场景中，52个涉及两辆车，1个涉及三辆车。每对自车之间的距离在每一帧都进行了分析。分布表明，大多数遭遇发生在两辆车彼此距离小于50米的情况下，如图3所示。

4 Benchmark Task and Model

Place Recognition

**问题定义。**作者考虑一个由M张图像组成的 Query 集和一个由N张图像组成的参考数据库。在这个任务中，目标是给定中的，找到中的，使得和在同一位置捕获。

**评估指标。**作者采用K位置的召回率作为VPR的评估指标。对于一个 Query 图像，作者选择与和之间Top-K余弦相似度的K个参考图像。如果选出的图像中至少有一个是在

**基准模型。**作者采用NetVLAD [44]，PointNetVLAD [51]，MixVPR [45]，GeM [63]，Plain ViT [64]，和CoVPR [50]作为基准模型。

NetVLAD 由基于CNN的主干网络和NetVLAD池化层组成。NetVLAD用可学习的软分配替代了VLAD [43]中的硬分配，以提取的特征作为输入，生成全局描述符。
MixVPR 由基于CNN的主干网络和特征混合器组成。将主干网络的输出展平为，然后使用行和列的MLP馈送到特征混合器，展平为单个向量，并进行归一化。
PointNetVLAD 由主干网络、NetVLAD池化和MLP组成。作者将主干网络的输出维度从1024减少到256，并省略了最后的MLP层以进行有效计算。
GeM 由基于CNN的主干网络和GeM池化组成。GeM池化定义为，其中是图像块特征，这里作者选择p=3。
Plain ViT[64] 由标准的 Transformer 编码器层和cls Token 上的归一化组成。
CoVPR[50] 由VPR模型和相似性正则化融合组成。VPR模型为 ego 代理和合作者生成描述符，融合模块将它们融合为一个单一的描述符。

Neural Reconstruction

**问题定义。**根据可用的遍历次数，作者将重建任务分为两种场景。第一种是单次遍历（动态场景重建），输入是一个图像序列，这些图像是一次遍历视频捕获的。目标是重建包括移动目标在内的逼真场景视图。第二种是多遍历（环境重建），输入是同一场景的图像序列集合。在此任务中的目标是重建环境并移除动态目标。

**评估指标。**基于早期工作中使用的方法[65]，作者在动态重建的实验中使用了PSNR、SSIM和LPIPS指标。PSNR定义为，通过比较最大像素值和均方误差来评估图像质量。SSIM通过计算，衡量合成图像和真实图像之间的相似性，同时考虑均值、方差和协方差。LPIPS与前面两种指标不同，它使用预训练的神经网络模型来评估两张图像之间的感知相似性。

**基准模型。**对于单次遍历任务，作者采用EmerNeRF[66]和PVG[65]作为基准模型。此外，为了比较，作者还进行了使用iNGP[67]和3DGS[68]的实验，这些模型并不直接针对这个问题。关于多遍历重建，没有专门为这一任务设计的算法。因此，作者采用iNGP作为基本模型。此外，为了增强模型移除动态目标的能力，作者还测试了RobustNeRF[69]和结合了Segformer[70]的iNGP。

单次遍历：动态场景重建。
基于神经场，EmerNeRF是一种自监督方法，有效学习动态驾驶场景的空间-时间表示。EmerNeRF通过将场景分解为静态和动态场来构建混合世界表示。通过利用涌现流场，可以进一步聚合时间信息，提高动态组件的渲染精度。将2D视觉基础模型特征提升到4D时空空间，增强EmerNeRF的场景语义理解。
基于3DGS，PVG通过向每个高斯点引入周期性振动来模拟这些点的动态运动。为了处理目标的显现和消失，它还为每个点设定了时间峰和生命周期。通过学习这些参数以及高斯函数的均值、协方差和球面谐波，PVG能够以节省内存的方式重建动态场景。
多遍历：环境重建。
RobustNeRF替换了原始NeRF的损失函数以忽略干扰物，在作者的案例中，作者认为动态目标是干扰物。此外，RobustNeRF在其损失估计器中应用了一个盒状核，以防止高频细节被识别为异常值。
SegNeRF利用预训练的语义模型SegFormer[70]来移除可移动目标。

5 Experimental ResultsVisual Place Recognition

**数据集详情。**作者在多遍历和多功能代理数据上进行了VPR任务的实验。在多遍历情况下，编号大于或等于52的交叉口用于测试。在多功能代理设置中，编号大于或等于50的场景用于测试。输入图像被调整至大小，输入点云被下采样至1024个点。

**实施细节。**作者在第4节提到的模型上评估作者的数据集，其中CoVPR [50]用多功能代理数据评估，其他所有模型用多遍历数据评估。Backbone 网络在ImageNet1K [71]上进行预训练。作者为NetVLAD和CoVPR使用ResNet18 [72]作为 Backbone 网络，为MixVPR和GeM使用ResNet50 [72]，为PointNetVLAD使用PointNet [73]。基于NetVLAD的方法中的簇数量为32。模型使用Adam [74]优化器进行训练，PointNetVLAD的学习率为1e-3，其他的学习率为1e-4，衰减率为1e-4，直至收敛。NetVLAD-based方法的批处理大小为20，其他方法的批处理大小为10。

**结果讨论。**定量结果在表3中展示。尽管GeM在池化方法中具有轻量级特点，但与使用较小 Backbone 网络的NetVLAD相比，其性能不佳。尽管ViT的 Backbone 网络比ResNet更强，但在没有特定任务池化方法的情况下，在VPR中的表现较弱。MixVPR实现最佳性能，因为其特征混合机制提供了更丰富的特征。PointNetVLAD利用点云，在输入尺寸较NetVLAD更小的情况下获得了更好的性能。在多功能代理数据的背景下，CoVPR一致性地优于其单代理对应物。定性结果在图8中描绘。作者的数据集包含白天和夜晚的场景，在各种天气条件下，如晴朗、多云和雨天。困难示例源自于夜晚场景和受雨水或逆光影响的摄像机。

Neural Reconstruction 2024-06-17-04-31-34

数据集细节. 在作者单次穿越动态场景重建的实验中，作者选择了10个不同的地点，每个地点一次穿越，旨在捕捉和表现复杂的城市环境。对于作者的多次穿越环境重建实验，作者总共选择了50次穿越。这包括10个独特的地点，每个地点5次穿越，使作者能够捕捉光照条件和天气的变化。

实施细节. 在所有重建实验中，作者使用三个前置摄像头中的100张图像以及激光雷达数据作为每次穿越的输入。单次穿越实验: iNGP和EmerNeRF模型都使用Adam [74]优化器进行10000次迭代训练，学习率为0.01，权重衰减率为0.00001。对于EmerNeRF，作者利用来自DINOv2 ViT-B/14 [75]基础模型的dino特征。该模型中使用的估计器是PropNet，包括线性视差和均匀采样。对于3DGS和PVG，作者将训练迭代次数设置为20000，学习率与原作[65]中的相同。作者将3DGS视为PVG方法的一个特例，运动振幅为，寿命为无限，作者在实验中将其设置为。多次穿越实验: 作者在这个实验中的NeRF模型是带有图像嵌入和DINO特征的iNGP [67]。对于RobustNeRF，作者实现了原文[69]中描述的鲁棒损失和 Patch 样本。在SegNeRF中，作者应用了在Cityscapes [76]数据集上训练的SegFormer-B5 [70]模型。在SegFormer模型的19个类别中，作者将'人'、'骑车人'、'汽车'、'卡车'、'公交车'、'火车'、'摩托车'和'自行车'识别为动态类别，并为它们生成 Mask 。

**结果讨论。**单次穿越实验：根据表4中呈现的结果，PVG获得了更高的SSIM分数和更低的LPIPS分数，表明其增强了结构细节。PVG这种卓越性能可能归功于其灵活的高斯点设置，

6 机会与挑战

作者的MARS数据集用多智能体驾驶记录引入了新的研究机会，以及大量对同一地点的重复穿越。作者概述了几项有前景的研究方向及其相关挑战，为未来的研究开辟了新途径。

3D重建。 重复穿越可以产生一个3D场景的众多相机观测，便于在多视点重建中进行对应搜索和捆绑调整。作者的数据集可以用于研究仅用相机的多次穿越3D重建，这对于自主地图绘制和定位至关重要。主要挑战是处理重复穿越随时间变化的外观变化和动态物体。例如，一项近期工作，3D高斯映射[77]，利用多次穿越的一致性将场景分解为高斯溅射表示的3D环境图和2D物体 Mask ，无需任何外部监督。

神经仿真。 多代理和多遍历记录对于构建能够重建和模拟场景及传感器数据的神经仿真器非常有价值。高保真度仿真对于开发感知和规划算法至关重要。主要挑战在于复制现实世界的动态和可变性，例如建模动态目标的行为、环境条件以及传感器异常，确保模拟数据提供一个全面且真实的测试平台。

例如，一项近期工作提出了一种神经场景表示方法，它可扩展到大规模动态城市区域，处理从多次遍历中收集的异构输入数据，并显著提高渲染速度[36]。另一项同时进行的工作提出了一种多级神经场景图表示，它可以扩展到成千上万的图像，来自数十个包含数百个快速移动目标的序列[35]。

无监督感知。 在无监督的3D感知中利用场景先验具有重大价值，特别是在多次遍历驾驶场景中，先前访问的丰富数据可以增强在线感知。这种方法不仅通过随时间积累的知识促进对环境的更深入理解，而且无需使用手动标注的训练即可实现无监督感知。

7 Conclusion

作者的MARS数据集在自动驾驶车辆研究方面代表了显著的进步，它通过整合多代理、多遍历和多媒体维度，超越了传统的数据收集方法。

MARS为探索3D重建和神经模拟、协作感知和学习、具有场景先验的无监督感知等开辟了新的途径。

未来的工作包括为在线感知任务提供标注，如在多代理和多遍历情境中的语义占用预测。

作者坚信MARS将在人工智能驱动的自动驾驶车辆研究中建立一个新的基准。

#MVPBEV

所有指标均优于SOTA！MVPBEV：具有可控和泛化性的BEV环视生成

这项工作旨在解决从给定的鸟瞰图（BEV）语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同，MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像，从而在测试时实现目标级控制和新颖视角的生成。具体来说，MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中，使模型能够泛化到未见视角。然后，引入了一个多视角注意力模块，其中采用了特殊的初始化和去噪过程，以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是，MVPbev通过优化预训练的文本到图像的扩散模型，进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验，结果表明，提出的方法能够从数千个训练样本的文本描述中生成高分辨率的光照真实感图像，在各种评估指标下均优于最先进的方法。此外，我们还借助新颖的评估指标和全面的人为分析，进一步展示了我们的方法在泛化性和可控性方面的进步。

当前领域背景

多视图图像对自动驾驶任务非常有益。如今，包括安装在前部和侧部的多视图摄像头已成为大型驾驶数据集（如NuScenes、Argoverse和Waymo）中的基本要求。通常，来自多个摄像头视角的图像会被感知并进一步以鸟瞰图（BEV, Bird-Eye-View）的形式表示，随后进行预测和规划等下游任务。直观上，BEV提供了对现实世界的直观接口，因此具有更高的可解释性，对高级建模和决策制定非常有益且实用。

尽管在自动驾驶任务中非常重要，但可靠的BEV表示在训练阶段需要大量的数据，这些数据的获取或标注可能非常耗时。解决这一数据问题的一个直观方法是使用生成模型来获取多样化的视角RGB图像及其对应的BEV语义信息。与对应的视角RGB图像或语义信息相比，多样化且合理的BEV语义信息在参数化表示的帮助下更容易以现实的方式进行模拟。因此，假设已知BEV语义信息而非视角RGB图像是自然而实用的。接下来的问题就是如何利用已知的BEV语义信息生成跨视角且在视觉和语义上保持一致的逼真RGB图像。

为此，本文提出了一种新颖的两阶段方法MVPbev，旨在通过明确执行跨视角一致性来生成具有给定BEV语义和文本提示的可控多视角RGB图像（见图1）。与现有工作中缺乏测试时泛化能力的方法不同，MVPbev进一步允许在测试时更改视角和详细的文本提示，从而在无需额外训练数据的情况下，通过人工分析获得令人满意的性能。为实现这一目标，MVPbev包括两个阶段，即视角投影和场景生成阶段。前一阶段根据相机参数将给定的BEV语义转换为多个视角视图。一方面，它通过明确的几何变换强制跨视角的全局一致性。另一方面，这种设计将两个阶段解耦，使第二阶段能够更好地捕获与视角无关的属性。MVPbev的第二阶段从一个预训练的稳定扩散（SD）模型开始。通过明确引入跨视角一致性模块，结合我们的噪声初始化和去噪过程设计，它能够生成多视角视觉上一致且逼真的图像，特别是在重叠的视野（FOV）中。为了进一步提高测试时对象的泛化能力，我们的MVPbev分别处理前景实例和背景布局，从而在推理过程中实现更好的可控性。

在NuScenes上验证了我们的想法，并遵循了标准的数据集划分。与那些专注于改进下游任务或语义一致性的方法不同，我们进行了额外的大量人工分析，特别是针对多个视角重叠视野中的视觉一致性、测试时视角和文本提示的变化。证明了提出的方法不仅提供了更好的测试时可控性和泛化能力，而且还生成了高质量的跨视角RGB图像。简而言之，贡献可以概括如下：

• 一种新颖的多视角图像生成方法，能够仅使用数千张图像作为训练数据，从BEV语义中生成语义和视觉上一致的视角RGB图像。

• 一种更可控且可扩展的算法，能够生成逼真的视角RGB图像。

• 在大型驾驶数据集上实现了最先进的性能，并进行了全面的人工分析。

相关工作

图像编辑和生成是计算机视觉中的热门话题。尽管这可能与大量文献相关，但这里将重点关注两个研究方向，即条件图像生成和新视角图像合成，因为它们密切相关。

条件图像生成：生成模型，如高斯混合模型和贝叶斯网络，一直是机器学习和计算机视觉领域长期的研究问题，因为它们能够解释复杂的数据分布。特别是，图像生成模型不仅对无监督特征学习具有重要意义，而且还支持图像编辑等应用。随着深度学习技术（如自回归模型、变分自编码器（VAEs）和生成对抗网络（GANs））的兴起以及海量数据的出现，我们观察到了质量极高的逼真图像。其中，条件GANs已被广泛研究，考虑了包括离散标签、文本和图像在内的各种约束。最近，稳定扩散模型被广泛用于根据文本描述生成详细的图像。与现有技术相比，它们不仅展示了最先进的图像生成质量，而且在基础模型的帮助下展现了出色的泛化能力。随后，Controlnet通过允许多样化的条件控制（如深度、语义或草图），在保持原有鲁棒性的同时，大大提高了扩散模型的整体性能。尽管取得了令人印象深刻的进展，但多视角或跨视角文本到图像的生成仍然面临计算效率和跨视角一致性的问题。

为此，MVDiffusion提出了一种新颖的对应关系感知注意力模块，该模块能够从文本中创建多视图图像，并保持全局对应关系。尽管MVDiffusion能够提供良好的多视角RGB图像，但它无法推广到更剧烈的视角变化或更小的重叠区域。可能包括BEVGen、BEVControl和MagicDrive在内的并行工作与我们的工作最为接近。第一个工作通过采用具有跨视角注意力的自回归转换器，基于BEV语义生成了多视角视觉一致的图像。而后两个工作则结合图像草图/语义和文本，利用跨视角跨对象注意力来更专注于单个内容的一致性。然而，现有的工作都没有实现测试时的泛化能力，例如视角变化或详细的实例级文本提示。它们也没有对图像生成质量进行人工分析。相比之下，我们提出了同时利用全局和局部一致性来增强语义和视觉连贯性的方法，并结合我们的无训练目标控制方法来加强详细的实例级控制。此外，我们还提供了全面的人工分析，以更可靠地证明我们方法的有效性。

新视角图像合成：新视角图像合成方法大致可分为基于几何的方法和基于学习的方法两大类。前者试图首先估计（或伪造）近似的基础三维结构，然后对输入图像中的像素应用一些变换以产生输出。而后者则认为新视角图像合成从根本上说是一个学习问题，因为否则它将是严重缺乏约束的。最近，属于第二类的神经辐射场（NeRF）在特定场景的新视角图像合成方面表现出了令人印象深刻的性能，它通过神经网络隐式地编码volumetric密度和颜色。从小规模场景开始，也提出了场景级NeRF，如Block-NeRF，从而通过重建大规模环境来支持重要的用例，如自动驾驶和航空勘测。相比之下，我们的方法将BEV语义和文本描述作为输入，并输出多视角RGB图像。

MVPbev方法介绍

本文的方法旨在根据给定的像素级BEV语义对应关系，从文本提示中生成多视角图像。具体来说，将BEV语义表示为，其中自车位于中心。、和分别是B的高度、宽度和语义类别数量。论文的目标是在M个虚拟相机视角下生成一组分辨率为𝐻×𝑊的透视RGB图像，或特别地表示为{𝐼𝑚}𝑚。其中，第m个透视图像被称为，其中m = {1, ..., 𝑀}。特别地，假设第m个相机的内参、外旋和外平移是已知的，并分别用、和来表示。

如上所述，通过隐式和显式地利用全局和局部一致性来获得视觉上连贯的多视角图像。具体来说，方法包括两个阶段。第一阶段将BEV语义B以及{𝐾𝑚, 𝑅𝑚,𝑇𝑚}𝑚作为输入，并根据每个视角的相机参数集将BEV语义投影到每个透视视图上，将第m个视角的结果表示为。第二阶段将和文本提示作为输入，并从M个透视视角生成RGB图像。

并且它根据M个透视视角生成RGB图像。表示从第m个视角生成的RGB图像。更具体地说，第一阶段投影过程通过几何变换的帮助，显式地强制BEV和透视视图之间的全局语义一致性。同时，生成阶段通过多视角注意力模块隐式地在重叠的透视视图之间施加一致性。最后，提出通过新颖的训练初始化和去噪设计，显式地强制重叠视野（FOV）中的视觉线索保持连贯。MVPbev的总体流程可以在图2中找到。

1）语义一致性的视图投影

假设使用现有的模拟方法可以毫不费力地获得各种但合理的BEV语义B，那么我们的方法应该解决的第一个基本问题是保持从B到透视图{𝐼𝑚}𝑚的跨视图语义一致性。其次，重叠视野（FOV）中的内容也应该是一致的。例如，不仅背景类别（如建筑物或树木），而且前景道路参与者在不同视角出现时也应该具有相似的apperance。为此，首先提出使用相机参数将BEV语义投影到M个视角上，生成）透视角语义。与现有工作相比，投影步骤通过几何约束确保了BEV和透视图之间的语义一致性，从而在生成步骤中减少了累积误差。

2）视角一致的图像生成

仅仅关注单个透视角的语义可能导致不同视图之间的内容不一致，特别是在重叠的视野（FOV）中。例如，在多个视图（如前方、前右方、后方和后左方）的视野中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏交互。这里想要指出的是，这种不一致性既不会通过鸟瞰图（BEV）布局分割来反映，也不会通过目标检测指标来反映，因为它仅影响背景类别。

受此启发，我们提出在方法上和实验上都应关注这些重叠区域。就提出的方法而言，通过估计重叠区域的单应性，对背景内容施加强烈的连贯性约束，然后利用多视角注意力模块隐式地强制不同视图的风格与估计的对应点保持一致。在这种情况下，不仅可以在提供语义的背景布局区域上强制外观一致性，而且还可以在缺少控制信号的其他区域上强制外观一致性。就评估目的而言，引入人为分析来提供可靠评估，以判断生成的图像，特别是重叠区域，是否真实。

单应性估计：这里通过估计重叠区域来迈出在重叠视野（FOV）中强制视觉一致性的第一步。为此，提出计算具有重叠视野的图像之间的单应性。正如许多驾驶数据集所示，一个视野通常与其左右两侧的视野重叠。因此，对于第m个视野，我们只需要考虑和，它们分别是第m个视野的左侧和右侧视野。然后估计从视野到视野m的单应性，并将映射函数表示为。因此，第m个视野中的p = [x, y]坐标将被映射到视野中的p̂ = [x̂, ŷ]坐标。或者p̂ = 。类似地，我们定义了一个逆映射，它将中的p̂映射到中的p。

多视图注意力模块：是什么使得一组视图看起来不真实？首当其冲的是图像之间的不一致性。换句话说，真实的视图必须看起来是一致的，就好像它们是在同一天的同一物理位置拍摄的。更具体地说，这组图像的视觉风格需要保持一致，以便它们看起来都是在同一地理区域（如城市与乡村）、同一天的时间、相同的天气条件下等创建的。为此，我们引入了一个多视角注意力模块，以便在生成第m个视图的RGB图像时，考虑其左右两侧的视图。对于位于第m个视图生成的特征图中位置p的标记，根据由视图m̄ ∈ {mr, ml}生成的特征图中对应的像素K(p̂)来计算注意力输出，其中p̂ * ∈ K(p̂)表示以p̂为中心的KxK区域。在数学上，遵循与[30]中类似的公式，并将我们的多视角注意力模块定义为：

3）模型训练与推理

为了训练我们的模型，我们引入了多视角潜在扩散模型（LDMs）损失。基本上，原始的LDMs由一个带有编码器E和解码器D的变分自编码器（VAE）、一个去噪网络δθ和一个条件编码器τθ组成。输入图像通过ε映射到潜在空间，其中。按照惯例设置，并且它们都等于8。之后，潜在变量将被转换回图像空间，得到。去噪网络δθ是一个时间条件UNet，它利用交叉注意力机制来结合条件编码τθ(c)。在我们的案例中，c由文本提示和透视视图中的语义组成。

在每个训练步骤中，首先为所有多视角图像统一地从1到T中采样一个共享噪声水平t，并将它们表示为ε。其中，ε。为了利用跨视角一致性，进一步强制要求如果噪声对应于相同的像素，则这些噪声必须相同。从第一个视角或m=1开始，我们将ε在坐标x, y上的值或ε重新赋值为ε。重复此过程，直到。在图5中提供了一个初始化的ε示例集。最后，模型训练目标定义为：

推理：如上所述，MVPbev可以扩展到实例级别的可控性。MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点，提出了一种针对多个前景目标控制的特殊机制，该机制通过操纵交叉注意力层的响应来准确指导实例级别的合成。假设可以通过现有方法或简单检索在每个视图中获得实例级别的掩码。首先分别使用其配对的提示获得实例级别和场景级别的潜在变量。然后，它们与这些二进制实例级别掩码有效结合，从而实现更一致的空间性能。请注意，MVPbev在前景对象上的这种能力是无需训练的，从而导致了更好的可扩展性和测试时可控性。

实验对比

数据集：在NuScenes数据集上验证了我们的想法，该数据集由六个camera提供的360度全景覆盖。它包含了波士顿和新加坡的1000个街景场景示例，每个场景持续20秒，以12Hz的频率捕获。除了140万张摄像头图像外，NuScenes还提供了多模态数据，包括全局地图层和在4万个关键帧上标注的3D目标边界框。遵循700/150/150的标准划分来进行训练、验证和测试。

#ParkingE2E

Camera-based End-to-end Parking Network, from Images to Planning

论文作者：Changze Li, Ziheng Ji, Tong Qin, and Ming Yang

作者单位：上海交通大学未来技术全球研究院

本文一作为秦通课题组学生Changze Li，最近成功入选IROS24，实现了从图像到规划的端到端泊车网络，通过收集大量专家级的泊车轨迹数据，并采用基于学习的方法克隆人类的驾驶轨迹，可以有效地解决泊车问题。

自动泊车是智能驾驶系统中一项至关重要的任务。传统的泊车算法通常基于模块化设计实现。然而，由于算法设计复杂，在面对复杂的泊车场景时，这些方法的效果往往不尽人意。相比之下，人类的驾驶轨迹往往比机器基于模块化设计的航点更为直观且易于理解。通过收集大量专家级的泊车轨迹数据，并采用基于学习的方法克隆人类的驾驶轨迹，可以有效地解决泊车问题。本文运用模仿学习，通过模仿人类的驾驶轨迹来执行从RGB图像到路径规划的端到端规划。所提出的端到端方法使用目标查询编码器融合摄像头和目标特征，并利用基于transformer的解码器自回归地预测未来的航路点。本文在真实世界场景中进行了广泛实验，结果表明，所提出的方法在四个不同的实际场景中平均泊车成功率达到了87.8%。真实车辆实验进一步验证了本文所提方法的可行性和有效性。论文被接受后，代码将会开源。

智能驾驶涵盖三项主要任务：城市驾驶、高速公路驾驶以及泊车操作。自动代客泊车（AVP）与自动泊车辅助（APA）系统作为智能驾驶中关键的泊车任务，显著提高了泊车的安全性和便利性。然而，主流的泊车方法多基于模块化，需要将整个泊车过程分解为环境感知、建图、车位检测、定位及路径规划等多个阶段。由于这些复杂模型架构的繁琐性，它们在狭小停车位或复杂场景下更容易遇到难题。

端到端（E2E）自动驾驶算法通过将感知、预测与规划组件整合进统一的神经网络进行联合优化，减轻了各模块间累积误差的问题。将端到端算法应用于泊车场景，有助于减少泊车系统对人工设计特征和模块化的依赖，提供了一个全面、整体且用户友好的解决方案。

尽管端到端自动驾驶已展现出显著优势，但大部分研究集中于仿真环境，未验证算法在真实世界的有效性。与城市环境的复杂性及高速公路驾驶的风险相比，泊车场景提供了更高的可控性。这种可控性为逐步在车辆中部署端到端自动驾驶能力提供了一条可行途径。本文开发了一个端到端泊车神经网络，并验证了该算法在真实泊车情境下的可行性。

▲图1｜展示了整个工作流程的示意图。该模型接收环视摄像头图像和目标车位作为输入，并输出预测的轨迹路点，这些路点随后由控制器执行

本工作基于模仿学习开发了一种端到端泊车算法。算法接收车载摄像头捕捉的环视图像，生成路径规划结果，并根据提供的航点执行控制。一旦用户指定泊车位，端到端泊车网络即与控制器协作，自动操纵车辆进入停车位直至完全停稳。本文贡献总结如下：

●设计了一个执行泊车任务的端到端网络。该网络将环视图像转换为BEV表示，并利用目标停车位特征查询摄像头特征，实现两者的融合。鉴于轨迹点具有序列性，本文采用了基于transformer解码器的自回归方法来生成轨迹点；

●在真实车辆上部署了端到端模型进行测试，验证了网络模型在多种真实场景泊车中的可行性和泛化能力，为端到端网络部署提供了一个有效方案。

■3.1 BEV感知

BEV表示相较于透视表示至少有两个优势：首先，它因具有清晰的物理可解释性而能轻松整合不同模态的输入；其次，BEV避免了透视失真问题，从而降低了下游任务（如规划）的复杂性。

近年来，BEV表示已在感知系统中得到广泛应用。与以往由特征提取模块和任务头部模块组成的深度学习感知算法不同，BEV感知在此基础上增加了一个视点转换模块。此转换模块促进了传感器视图与BEV之间的转换。代表工作包括LSS的深度估计与投影、DETR3D的稀疏查询三维检测、PETR的三维位置嵌入、BEVFormer的空间时间注意力机制、BEVDepth的深度增强学习以及BEVFusion的多模态特征融合。

■3.2 端到端的自动驾驶

与传统的基于模块的自动驾驶解决方案相比，端到端能够缓解累积误差，防止模块间的信息损失并最小化冗余计算，因此已成为自动驾驶领域一个热门且突出的研究主题。

初期研究如ChauffeurNet关注城市驾驶策略学习。众多研究采纳编码器-解码器结构，如Transfuser、Interfuser、NEAT等利用GRU进行自回归航点预测；CIL与CILRS则直接将视觉与导航信息映射至控制信号。近年来，针对泊车场景的端到端网络发展迅速，如两阶段学习框架预测转向和档位（Rathour等人）、CNN控制转向速度（Li等人）、ParkPredict系列的泊车位与航点预测。现有方法虽有成效，但也面临着计算需求高、实车部署难等问题。本文提出一种新颖的端到端泊车网络，利用自回归变压器解码器，结合RGB图像和目标车位信息预测航点。

■4.1 基础概念：问题定义

本文采用端到端神经网络来模仿专家轨迹进行训练，定义数据集为：

其中，轨迹索引，轨迹点索引，相机索引，RGB图像，轨迹点和目标车位。本文将数据集重新组织为：

以及

这里，表示预测轨迹点的长度，表示RGB摄像头的数量。

端到端网络的优化目标如下：

其中，表示损失函数。

■4.2 基于摄像头的端到端神经规划器

◆概述：

如图2所示，本文开发了一种端到端神经规划器，该规划器以RGB图像和目标车位作为输入。所提出的神经网络包含两个主要部分：输入编码器和自回归轨迹解码器。当输入RGB图像和目标车位后，RGB图像被转换以获取BEV特征，并将这些特征与目标车位特征融合。随后，神经网络利用transformer解码器以自回归方式生成下一个轨迹点。

▲图2｜基于摄像头的端到端停车方法概述

◆输入编码器：

BEV提供了车辆周围环境的俯视图，使车辆能够识别停车位、障碍物和地面标线。同时，BEV在不同的驾驶视角之间提供了一致的观察点表示，从而降低了轨迹预测的复杂性。基于这些理由，本文选择在鸟瞰视图中对输入信息进行编码。

**相机编码器：**在生成BEV流程的开始，首先利用EfficientNet从RGB输入中提取图像特征。受LSS启发，本文学习图像特征的深度分布，并将每个像素提升到3D空间中。然后，本文将预测的深度分布与图像特征相乘，以获得含有深度信息的图像特征。利用相机的外参和内参，将图像特征投影到BEV体素网格中，生成相机特征。鸟瞰特征在x方向上的范围表示为米，y方向上的范围为米。

**目标编码器：**为了使目标车位与相机特征对齐，本文基于指定的停车位在鸟瞰空间中生成目标热力图。随后，本文使用深度CNN神经网络提取目标车位特征。在训练过程中，目标停车位根据泊车操作中最终直线轨迹段的外部包络线确定。

++目标查询：++通过在鸟瞰空间中对齐相机特征和目标编码特征，并利用注意力机制使用目标特征查询相机特征，本文可以有效地融合这两种模式。位置编码确保了在特定BEV位置关联特征时，相机特征与目标特征之间的空间对应关系得以保持。利用作为查询，相机特征作为键和值，并采用注意力机制，得到融合特征。

▲图3｜目标查询的架构说明，本文对目标特征和相机特征添加了相同的位姿编码，以便建立两种特征之间的空间关系

◆轨迹解码器：

许多端到端规划研究采用了GRU解码器，以自回归方式从高维特征向量预测下一个点。然而，高维特征向量缺乏全局感受野。受Pix2seq的启发，本文将轨迹规划视为一个序列预测问题，使用transformer解码器来解决。这涉及到自回归地、一步一步地预测轨迹点。本文的方法有效结合了低维轨迹点与高维图像特征。

轨迹序列化：通过对轨迹点进行序列化，可以将回归问题转换为分类问题。随后，本文可以利用transformer解码器来预测自身坐标系下的轨迹点。本文采用以下序列化方法：

其中，定义为序列可表示的最大值，序列化轨迹点的符号表示为Ser(·)。

对于每一个轨迹点，本文定义在该点的泊车进度为，它代表了在泊车操作中第条轨迹的第个点的整体进展。当车辆从左侧开始泊车过程时，赋值为-1；从右侧开始时赋值为1；当车辆成功停在指定停车位内时，赋值为0。令表示第条轨迹中第个点与第个点之间的距离。可以表示为：

当从左侧泊车时，需乘以-1。泊车进度的序列化过程如下：

序列化之后，第ii条轨迹可以表示为：

其中，BOS代表开始标志，EOS代表结束标志。

轨迹解码器：BEV特征作为键和值，而序列化的队列则作为查询，利用transformer解码器以自回归的方式生成轨迹点。在训练过程中，本文向序列点添加位置嵌入，并通过屏蔽未知信息来实现并行化。在推理过程中，给定BOS标记，transformer解码器预测第一个点。然后，将预测的点附加到序列中以进行下一步，重复此过程，直到遇到EOS或达到指定的预测点数量为止。

■4.3 横向与纵向控制

在控制过程中，定义泊车起始时刻为，该时刻可根据端到端神经规划器为路径规划预测得出，即。从初始时刻到当前时刻的相对姿态可通过视觉里程计获得，记为。目标转向角可采用后轮反馈(RWF)方法计算得到，表达式如下：

依据底盘提供的速度反馈和转向反馈，以及设定的目标速度和计算得出的目标转向角，采用级联PID控制器实现横向与纵向的控制。每当生成新的预测轨迹后，将和重置，这样在整个车辆控制过程中就不必持续依赖全局定位。

■5.1 数据集收集

数据集通过车载设备进行采集。实验车辆配备有四个摄像头和一个惯性测量单元（IMU）。环视摄像头用于捕捉RGB图像，同时实现了一个视觉惯性里程计，用于车辆定位，这对于确定车辆行驶轨迹至关重要。实验平台的布局及所使用的传感器如图4所示。

▲图4｜本文以长安汽车为实验平台（该车辆搭载英特尔NUC设备以运行模型推理与控制）

数据收集涵盖了多种泊车场景，包括地下车库和地面车库，如图5所示。从多样化的环境中收集数据有助于增强神经网络的泛化能力。一部分来自车库I和II的停车位数据被用于训练。而未参与训练的车库I和II中的其余停车位数据，以及从车库III和IV收集的所有停车位数据，则用于测试。

▲图5｜系统训练和测试使用了多个不同的停车场

■5.2 实现细节

在训练过程中，使用环视摄像头图像（摄像头数量R为4）作为输入，而目标停车位由泊车结束时的一些点确定。轨迹序列点被用来监督端到端预测结果。

在推理过程中，采用指定的目标车位、环视摄像头图像以及预设的BOS信号。模型以自回归方式预测后续n个轨迹点的位置。路径规划结果指导控制器基于路径、自身位姿及反馈信号来操纵车辆，直至车辆停入指定车位。值得注意的是，目标点及所有预测的轨迹点均表示当前车辆坐标系下的位置，确保了轨迹序列与BEV特征的一致性。这一设计也使得整个系统独立于全局坐标系。

就神经网络细节而言，BEV特征的尺寸为200×200，对应实际空间范围为，，分辨率为0.1米。在transformer解码器中，轨迹序列化最大值为1200。轨迹解码器生成长度为30的预测序列。

本文使用PyTorch框架实现了该方法。网络在NVIDIA GeForce RTX 4090 GPU上进行训练，批大小为16，总训练时间约为8小时，使用了40,000帧数据。测试数据集包含大约5,000帧。

■5.3 评估指标

◆模型轨迹评估：

在进行真实场景实验之前，为了分析模型的推理性能，本文对模型进行初步评估并设计了一些评估指标。

**L2距离（L2 Dis.）：**指的是模型预测轨迹上的路点与真实轨迹上相应路点之间距离的平均值。这一指标从离散路点的角度评价模型推理的精确度和准确性。

++豪斯多夫距离（Haus Dis.）：++在预测轨迹上选取一点，计算该点到真实轨迹上所有点的最短距离，再选取这些最短距离中的最大值。这一指标从轨迹集合的角度评价预测轨迹与真实轨迹的匹配程度，但对异常值敏感。

**相似度：**结合了 Frechet距离和Procrustes分析，范围在0到1之间。首先对预测轨迹和真实轨迹进行对齐，然后计算两者曲线间的Frechet距离。这允许从整体曲线的角度评估两条轨迹的相似性，反映模型推理结果的一致性。

◆端到端实车评估：

在实车实验中，本文使用以下指标评估端到端泊车性能。

++泊车成功率（PSR）：++描述了自主车辆成功停入目标车位的概率。

++无车位率（NSR）：++未能停入指定车位的失败率。

++泊车违规率（PVR）：++指车辆略微超出指定车位边界，但未阻碍或妨碍邻近车位的情况发生频率。

++平均位置误差（APE）：++在成功泊车时，目标泊车位点与自主车辆停止位置之间的平均距离。

++平均方向误差（AOE）：++成功泊车时，目标泊车位点与自主车辆停止位置之间的平均方向差异。

++平均泊车得分（APS）：++综合考虑泊车过程中的位置误差、方向误差和成功率进行综合评估得出的分数，分布在0到100之间。

++平均泊车时间（APT）：++多次泊车操作的平均泊车耗时。泊车时间从启动泊车模式开始计算，直至车辆成功停入指定车位，或因异常或失败终止泊车过程。

■5.4 定量结果

▲表I｜闭环实车测试结果

为了验证本文所提出系统的性能，本文在四种不同环境条件下的停车场进行了闭环车辆测试。车库I为地下车库，而车库II、III和IV为地面车库。场景A为两侧无障碍物的停车情境，场景B为左侧或右侧有车辆停放的停车情境，场景C则为附近有障碍物或墙体的停车情境，结果如表I所示。在实验中，本文测试了四个不同的车库，并且对于每个车库，本文使用了三种不同的实验场景。针对每种实验场景，本文随机选择了三个不同的停车位。对于每个车位，分别在左右两侧大约进行了三次泊车尝试。实验结果显示，本文提出的方法在不同场景下达到了较高的泊车成功率，展示了良好的泛化性能。同时，本文发现停车位旁边若已停有车辆，可能会提供额外的特征信息，进一步提高泊车成功率。

尽管最近出现了越来越多的端到端泊车方法，但它们大多集中在解决驾驶场景的问题上。虽然像ParkPredict这样的方法也被应用于泊车场景，但它们的任务与本文的特定任务显著不同。目前可能尚无可以直接与本文方法相比较的有效现有方法。基于上述分析，表II中比较了本文方法（基于Transformer的解码器）与Transfuser（基于GRU的解码器）的结果。得益于Transformer中的注意力机制，基于Transformer的解码器在推理期间提高了预测准确性。

▲表II｜性能对比评估

■5.5 消融研究（Ablation Study）

本文设计了多种消融实验来分析不同网络设计对轨迹预测性能的影响。在神经网络结构方面，本文针对编码器和解码器进行了消融实验，具体结果如表III所示。在特征编码器部分，本文比较了基线（目标查询）、特征拼接和特征元素级相加这几种方法的结果。目标查询方法利用注意力机制和空间对齐机制，全面整合目标信息和鸟瞰图像信息。它明确约束了目标车位与鸟瞰图像之间的空间关系，以此达到最高的轨迹预测准确度。在解码器部分，本文分析了预测轨迹点数量变化对推理性能的影响。预测过多的轨迹点可能导致由于停车位内的遮挡等因素而降低预测精度。本文在基线情况下预测了30个点，这在推理过程中实现了准确性和速度的最佳平衡。

▲表III｜编码器与解码器的消融研究

在表IV中，本文对比了增加泊车进度标记对预测性能的影响。结果显示，泊车进度标记有助于提高推理准确性。进度标记使网络模型能够跟踪泊车的整体进度，并确保在泊车过程结束时能够适时刹车。

▲表IV｜泊车进度标记的消融研究

■5.6 可视化展示

▲图6｜不同场景下泊车过程的示意图。每行展示了一个泊车案例。即便是在相邻停车位被车辆或墙壁等障碍物占用的情况下，本文的方法仍然能够有效地操纵车辆并将其停在指定的位置

图6展示了在不同场景下的泊车过程。结果证明，本文的算法在各种场景下都表现出了良好的泛化能力。即使在目标停车位附近存在其他车辆或墙壁等障碍物的情况下，算法也能有效地操控车辆，使其停在指定位置。图7描绘了自动泊车过程中预测的轨迹与实际行驶轨迹。从图中可以看出，规划的轨迹提供了精确的引导，而控制器则高效地执行了规划的轨迹。

▲图7｜泊车轨迹的示意图。蓝色轨迹代表预测轨迹，而白色轨迹代表自动泊车过程中实际行驶的轨迹（简称为AD Traj.）。第二行将自动泊车过程中的实际行驶轨迹与预测轨迹叠加显示，彰显了强大的轨迹预测与控制能力

■5.7 局限性

尽管本文提出的方法在泊车任务上展现出了优势，但仍存在一些局限性。首先，系统对动态目标的适应性较差。受限于当前数据量和分布，泊车模型对于移动目标的适应性不佳。通过不断扩充数据集，可以增强模型对移动物体的适应能力。其次，由于训练过程中使用了专家轨迹，无法提供有效的负面样本。此外，在泊车路径出现较大偏差时，缺少强有力的纠正机制，最终可能导致泊车失败。为了解决这些问题，后续计划利用NeRF（神经辐射场）和3DGS（三维高斯溅射）构建接近真实世界的模拟器，通过深度强化学习训练端到端模型，以增强泊车系统的鲁棒性。最后，尽管本文的端到端泊车方法已取得良好成效，但与传统的基于模块化的泊车方法相比仍有一定差距。不过，随着端到端技术的不断进步，这一问题将会得到解决。也期待未来端到端泊车算法在复杂场景下展现出更多优势。

本文提出了一种基于摄像头的端到端泊车模型。该模型输入目标车位和环视RGB图像，通过目标查询在BEV下获得融合特征，并采用transformer解码器以自回归方式预测轨迹点。轨迹规划的结果随后用于控制。本文广泛地在多种场景下评估了所提方法，结果表明其可靠性和泛化能力。然而，与高度优化的基于模块化的泊车方法相比，本文的端到端泊车算法仍存在性能差距。

作者表示，将在未来工作中进一步提升端到端泊车算法的性能，期望基于学习的方法最终能超越传统方法。相信本文的研究与实践将激励和启发同行研究人员及工程师的思考与创新。

#端到端~下的智驾人

"要么拥抱端到端，要么几年后离开智驾行业。"

特斯拉率先吹响了方案更新的号角，无论是完全端到端，还是专注于planner的模型，各家公司基本都投入较大人力去研发，小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案，效果着实不错，非常有研究价值。

为什么需要端到端？

首先我们聊一下当前的主流自动驾驶方案，主要核心部分包括：感知模块、预测模块、规控模块。每个模块相对独立，感知模块给预测模块提供动静态障碍物信息；预测模块为规控模块提供规划的参考，规划再转换为控制指令。从传感器端到控制端，需要多个功能支持，这就不可避免导致了累积误差，一旦碰到问题，需要整个pipeline做分析。而且每个模块的优化，并不能保证整个系统达成最优解。

这个时候，就希望有一种模型能够完成感知信息的无损传递，即从传感器端到输出控制策略端，这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单（比如机动车、行人、甚至occ输出的非通用几何障碍物）的检测与预测来完成，是人为定义的规则和抽象。随着产品的迭代，每一次都需要添加各类case，设计各种博弈的策略，从模型训练到工程部署再到逻辑设计，时间和人力成本高昂。

而且这种方式无法罗列所有情况，那么是否可以通过对整个场景的学习抽象，无损的将所有信息传递给PnC部分？这就是我们期望的端到端。端到端核心是优化最终目标且全局可导，作为一个完整的优化任务来看，直接求最优解，而不是先求感知再求规控的最优解。

端到端效果怎么样？

今年各大自动驾驶公司都在预研和落地相关端到端方案，小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显，各大自动驾驶公司都在拼命布局揽人，对应岗位薪资水涨船高，某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢？先来看看国外的特斯拉：

再来看看国内的UniAD效果：

不得不说，端到端是一个更简约的方法，更具有全场景的优化能力。

端到端有哪些技术栈？

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案（包括某鹏的XPlanner）。顾名思义，完全端到端是从传感器直接到规控；而专注于planner的端到端以感知模块的输出作为先验，替换原来以规则作为主要形式的PnC模块。

从传感器到控制策略的（如果把条件再放松下也可以到轨迹输出）完全端到端方案更为简约，但同样面临一个问题，可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性，但训练仍然是个难题。在足够体量和质量的数据群下，效果能够得到保证，泛化性能也不错。

而专注于planner的端到端方案，如果深究的话，只能算狭义上的端到端，但更贴合当下的量产方案和任务，而且可解释性也较高，是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看，又可以分为纯视觉方案（UAD、UniAD这类）和多模态方案（FusionAD这类），传感器成本不断在下降，多模态方案也一直是行业里面都在关注的点。

#InvRGB+L Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling

首个自动驾驶RGB和Lidar紧耦合逆渲染框架InvRGB+L，直接SOTA~

论文标题：InvRGB+L Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling
论文链接：https://arxiv.org/abs/2507.17613****

1 简介

本文提出了InvRGB+L，一种新颖的逆渲染（inverse rendering）模型，首次将LiDAR强度应用于逆渲染，可以从单一的RGB+LiDAR序列中重建大规模、可重光照的动态场景。传统的逆渲染方法主要依赖RGB输入，将LiDAR仅用于几何信息的重建，而图像输入常常由于可见光干扰导致材质估计不理想。我们发现，LiDAR的强度值在不同光谱范围下通过主动照明采集，为在变化光照条件下进行稳健的材质估计提供了互补信息。受到这一发现的启发，InvRGB+L通过两个关键创新利用LiDAR intensity提升复杂场景的逆渲染结果：(1) 一种新颖的基于物理的LiDAR着色模型；(2) RGB--LiDAR材质一致性损失。该模型可以生成城市和室内场景的新视角RGB和LiDAR渲染结果，并支持重光照、夜景模拟和动态物体插入，在城市级逆渲染和LiDAR模拟任务中取得了超过当前最先进方法的表现。

核心挑战：

RGB图像对光照高度敏感，在不同照明条件下（如阴影、夜晚、车灯）材质估计易受干扰，导致逆渲染结果不准确。
传统方法忽视LiDAR强度信息，仅将LiDAR用于几何建模，未充分利用其在材质估计中的物理潜力。
RGB与LiDAR来自不同模态，直接融合存在表征不一致的问题，难以协同估计材质。

解决方案：

基于物理的LiDAR着色模型（LiDAR Shading Model）：精确建模激光强度的生成过程（包括反射率、入射角、距离衰减等），使模型能够从LiDAR强度反推出物体表面属性。
RGB--LiDAR材质一致性损失（Consistency Loss）：在训练中引入RGB和LiDAR反射之间的监督一致性，提升跨模态材质估计的稳定性和精度。

2 基于物理的 LiDAR 反射模型

为了准确建模LiDAR 强度值（intensity）与场景表面的材质属性（如反射率、粗糙度等）的关系，本文提出了一个新的LiDAR反射模型。LiDAR 遵循经典的渲染方程，在假设无介质散射的前提下，其反射辐射度可以表示为：

其中：

x：表面点的位置；
n：该点的法向量；
、：入射光方向和出射光方向；
：入射辐射亮度；
：双向反射分布函数（BRDF）。

由于 LiDAR 脉冲具有高度方向性，Li(x,)可视为沿某个特定方向的窄束内的常数。由于激光能量在传播过程中会衰减，因此该方向上的辐射亮度满足：

其中：

：发射功率；
d：传感器到表面点x 的距离。

现有文献大多假设为 Lambertian漫反射模型，然而该模型无法解释实际场景中常见的镜面反射现象，如金属车身或水面上的聚光反射。因此，本文采用 Cook-Torrance 模型扩展 LiDAR 的反射建模，最终得到的反射模型表达式为：

通过显式建模镜面反射项，本文所提出的 LiDAR 反射模型在结构上与 RGB 图像常用的着色模型保持一致，为后续 RGB 与 LiDAR 的联合逆向渲染提供了统一的物理基础。

3 逆渲染框架

本文提出了一种用于逆渲染的Relightable场景表示，旨在同时支持场景的几何、材质以及光照的解耦与联合建模，从而实现高质量的重光照与动态场景渲染。具体来说，该表示由以下几个核心组成部分构成：

1. 带材质属性的3DGS

采用3DGS来表征场景的几何和颜色信息，每个3D高斯不仅包含颜色和透明度，还附加了物理材质属性（如反照率，粗糙度、法线方向等），使得场景能响应不同光照条件，实现物理正确的光照交互。

2. 环境光照建模

引入完整的环境光照模型，包括天空光与环境辐射，为场景提供自然且可控的光照变化基础，支持多时段、多天气的光照模拟。

3. 动态物体的时间属性

该表示同时具备对动态物体的时序建模能力，允许插入或编辑动态元素，保持时间一致性。

基于该场景表示，本文实现了基于物理的可微分正向渲染过程。渲染过程中，利用每个体元的材质属性（包括漫反射率、镜面反射率和粗糙度等）与入射光照进行物理计算，生成高质量的RGB图像，从而促进材质与几何参数的联合优化。除RGB图像外，渲染还同步模拟LiDAR强度响应，结合本文提出的物理LiDAR反射模型，准确预测激光反射强度，有效增强对材质估计的物理约束能力。

训练过程的损失函数如下：

前两项为渲染损失，分别衡量生成的RGB图像和LiDAR强度与真实观测之间的差异；第三项和第四项则利用扩散先验（diffusion prior）对材质和法线进行监督优化，提升估计的物理合理性。此外，本文还引入了一种RGB--LiDAR一致性损失，用以约束通过RGB和LiDAR两条路径估计出的材质参数保持一致，有效避免单一模态带来的估计偏差：

4 实验结果

定量结果

这张表格展示了InvRGB+L与UrbanIR在waymo数据集上重打光任务中的定量结果，结果表明InvRGB+L显著优于UrbanIR。此外，加入一致性损失进一步提升了性能，主要是由于更准确的材质估计。

为了验证InvRGB+L的LiDAR强度公式的有效性，本文在Waymo数据集上评估了LiDAR强度的新视图合成。下表展示了定量结果，结果表明InvRGB+L能够有效地捕捉底层物理现象，从而实现更准确的LiDAR强度建模。

定性结果

下图是逆渲染的定性比较结果。InvRGB+L通过利用反射率有效地将阴影与反照率分离，从而获得了更平滑的反照率估计，相比之下，UrbanIR和FEGR都难以将照明杆投射的阴影与车辆下方的阴影从反照率中分离，导致在第一场景的光照重建结果中汽车旁边出现不真实的阴影。

下图展示了场景编辑的结果，展示了InvRGB+L在光照重建和物体插入方面的多样性。第一行展示了将街灯和车头灯光照应用于输入的白天场景进行夜间模拟的结果。第二行展示了不对插入节点进行重打光的结果：插入的汽车与场景不匹配。相比之下，经过光照重建后，汽车与环境无缝融合。第三行展示了同时对场景和插入物体进行光照重建的结果。

5 结论

这项工作将 LiDAR 融入逆向渲染，提出了InvRGB+L，一种能够从 RGB+LiDAR 序列中重建大规模、可重光照且动态变化场景的逆渲染模型。通过利用 LiDAR 与 RGB 反照率之间的一致性，InvRGB+L提升了材质估计的准确性，并支持包括重光照、物体插入和夜间模拟在内的多种场景编辑应用。然而，仍存在一些局限性。首先，InvRGB+L采用基于 BVH 的光线追踪器对三维高斯体元进行光线投射，但由于高斯体元的不透明性质，可能导致阴影渲染不够准确。此外，光照模型仅考虑了天空光和太阳光，对于夜间等复杂环境下的逆向渲染仍显不足，这部分将在未来工作中予以改进。

#关于理想VLA司机大模型的22个QA

原文：来自微博用户红石驾驶员

原文链接：https://weibo.com/7983184984/PDnOJkyiI

问题1：从无图NOA到端到端生命周期都比较短，半年到一年左右就开始转架构了。VLA的技术潜力如何？大部分人在端到端都已经拥有了1000万Clips的数据量，基本上已经饱和到了边际数据递减，开始转向VLA架构，VLA会是一个长期架构么？是否能支持到城区自动驾驶？

郎咸朋：VLA有很强的技术潜力，端到端让自动驾驶从人工变成AI，但仅靠V（视觉）和A（动作）不够，VLA架构思路来源于机器人和xxx智能，是长期架构。从某种程度上看，自动驾驶也是四轮机器人，VLA架构会延续到机器人繁荣之后才可能被替代，技术潜力大，更符合人类智能发展规律，能支持城区自动驾驶。

问题2：您认为VLA在Thor-U芯片上的运转速度能到多少？目前的10Hz应该只是一个起点，是否可以做到更高？特斯拉最新的FSD运转速度是多少？

詹锟：Thor-U架构支持先进的推理精度和混合精度，目前使用INT8和FP8（业界主流），已做到10Hz。Thor-U支持FP4，FP4算力是FP8的一倍（FP8为700算力时，FP4可达1400算力），推理帧率可从10Hz提升到20Hz。此外，通过优化底层数据、算法架构和硬件适配，未来几个月可能达到20Hz、30Hz。（未提及特斯拉FSD运转速度）

问题3：VLA在双Orin平台能部署到什么情况？Thor平台上能做到10Hz的推理帧率，在双Orin平台上能做到多少？

郎咸朋：VLA模型研发之初就决定支持每个平台，且无差别支持，重点关注模型部署帧率和差异，两个平台同步推进。功能和模型表现上，双Orin平台与Thor平台同步且无差别，请AD Max车主放心。目前内部在优化模型，每天迭代，最终交付时帧率会优于现在。

问题4：有些友商在自研芯片，未来理想汽车会不会自研芯片？是否自研芯片是基于什么去决策和判断的？

郎咸朋：目前VLA技术架构和模型尚未最终定型。自研芯片对自身模型支持更好，而英伟达通用芯片对各种模型和算子的通用性更强。理想目前用英伟达芯片部署和探索模型，希望保持通用性，不被锁死在特定算子和架构上，待模型架构通用性解决后，可能考虑其他可能性。

问题5：VLA里的L（语言）对行车的体验是锦上添花还是雪中送炭？用新的方式或新的架构带来的收益或提升会是怎样的？这个变化会很明显吗？

郎咸朋：语言理解能力是必要的（除非依赖先验地图等其他信息）。若未来实现L4或纯无人（如MEGA Home），无语言能力无法操作车辆。更本质的是，有了L之后，CoT（思维链）能力增强，能提升模型对复杂或未知场景的处理能力。有无L是模型是否具备深度思考能力的关键，并非锦上添花或雪中送炭，而是核心能力的提升，变化会很明显。

问题6：未来其实是这种泛化的表现吗？比如场景。

郎咸朋：VLA的泛化能力并非仅依赖数据输入，而是通过强化学习或训练形成思维能力，遇到新问题时能自主思考。类似人类从经验中学习处理问题的方式，无需反复碰壁就能成长，具备对新场景的泛化处理能力。

问题7：请详细介绍一下3.2B的MoE车端模型的升级周期。业界对于扩散模型的出轨迹的时延问题一直比较难解，理想在做VLA时为何可以通过几步较快去噪并实现一个比较稳定收敛的轨迹？

詹锟： 3.2B的MoE车端模型升级周期分两种：重新训练预训练（改变基座）以月为单位更新，与基座模型团队合作，每月更新并提升空间理解、语言理解、文字识别等能力；后训练更新取决于问题，引入数据或新增prompt即可解决，与大模型迭代思路一致。

扩散模型能快速去噪是因为采用新方法（如DPIM、flow matching流匹配），可大幅减少迭代步骤。目前用流匹配2-3步即可出轨迹，且多轨迹并行生成，芯片算力足够，时延低（约15毫秒）。

问题8：VLA本身是具备思维链的过程，在VLA的阶段超级对齐这件事儿还有意义吗？思维链本身就是在做一次对齐，人类规则包括现实的一种对齐，VLA还需要做吗？

詹锟：有意义。CoT是VLA/VLM的思考模式（用Token思考），而超级对齐关注思考模式是否符合人类价值观和用户期望的驾驶行为，包括RLHF模型对齐、人类偏好对齐等。VLA中会继续存在，先用超级对齐RLHF优化CoT，例如采样8种CoT逻辑，通过偏好模型筛选符合人类价值观的。

问题9：今天体验发现它的能力还是会在部分的环境有点退步，比如说我们遇到了一个慢车，就会一直迟疑着没有超车。但如果现在是我现在的理想L9可能就超过去了（当时的路段是双向的，但是每个向只有一个车道，左边中间是虚线它是可以借道超车的情况，旁边没有别的车，只有前面一辆车），这是为什么？

郎咸朋：与价值观对齐有关，当前VLA更偏安心舒适、合规，仿真评分中合规性优于OTA7.5版本。若场景中是虚线，理论上可借道，但目前版本调优偏好偏稳妥。若对VLA下达"超过前面的三轮车"的指令，它可能回复"当前单车道不想跨实线"。

问题10：地库里现在最快只能15公里每小时，但实际上人类的话肯定要超过这个时速的，如果是我的话，我就不会去用它了，我会很着急那这个问题怎么解决？

郎咸朋：进一步提升能力并做好测试后，会逐步提高车速上限（目前已从10公里提升到15公里）。

问题11：现在靠边停车的动作还有比如说让它往前走几米这种动作，以及还有掉头的动作都会比较缓慢，这和帧率是有一定关系的吗？

詹锟：与帧率无关。往前走几米无需快速起步，所以缓慢；掉头动作较慢是因当前版本处于初期调试阶段，涉及底盘控制信号的挂挡问题，属工程实现层面调整，与时延无关。

问题12：目前的状态下，如果我在路边接人，我可能不会去使用。因为现在我得告诉它往前开，我一脚油过去，然后一脚油刹住，让人赶紧上来。感觉离能够使用还比较远，我现在看不到它能做成什么样。那么未来到底怎么使用？它能做到实用吗？

郎咸朋：不同人群会逐步接受产品（早期领先者→早期大众→晚期大众）。对晚期大众而言，关键是信任感和体验与自身驾驶方式一致。VLA会先确保核心技术能力（如倒车轨迹规划正确），再整合工程能力和产品体验，目前是第一个版本，后续会加快迭代，最终能做到实用。

问题13：比如在园区里远程召唤过来的功能，当车还不在视野里的时候特别希望能看到这个车周围的影像，这个功能我们会不会做？

郎咸朋：该功能已实现，在手机上可查看车周围的影像。

问题14：之前试驾i8的时候，当时还是端到端+VLM的版本。我把手挡在左边A柱的摄像头上或我闭着眼睛，它好长时间都没有提示让我去观察路况，这是不是太宽松了？

郎咸朋：当时的DMS（驾驶员监控系统）是中间版本，试驾活动时做了调整（因之前觉得太敏感），那几天处于优化过程中。

问题15：今天的MEGA巴士是后台有人可以操作那个车，这个只是针对这种体验而来的对吧？

郎咸朋：如非必要不会介入，展示的是为后续更高级别自动驾驶积累的能力（包括成片区域仿真能力），属于研发和预研阶段的能力积累。

问题16：以后比如这些功能真的法规落地可以用了，后台也会有人在看着吗？

郎咸朋：国家法规允许后，不会用大量人力，会用AI接管。目前展示中后台有人是为了保护和方便理解，后续会推进AI接管。

问题17：请教两个问题。今天体验的时候没有机会穿过园区的大门。第一个问题，VLA上车以后，行车、泊车和AEB三个模块是不是都在一体训练了？第二个问题，特斯拉6月底到7月上旬一系列的动作关注度都比较高，想听一下评价，你们看特斯拉目前做的Robotaxi、FSD、Grok4等，这一系列动作对咱们驾驶这块有什么可以参考的？或者换个角度说，理想现在正在做的努力，跟特斯拉有什么差别，或者有哪些相同的地方？

詹锟：

第一个问题：VLA推送时，行车、泊车、AEB已一体训练，当前版本均包含这些模块。

第二个问题：理想关注特斯拉进展，有北美调研团队，认为其Robotaxi路线需更谨慎和细致研发。理想目标是通过技术迭代实现全场景自动驾驶，会借鉴特斯拉在远程接管、路线采集等方面的探索。双方技术栈均瞄向高级别自动驾驶，但理想更注重逐步迭代和全场景能力积累。

问题18：刚才郎博说一年内能实现，从技术能力上讲，是不是一年内实现L4？

郎咸朋：技术上希望如此，但目前技术先进性和差异度未充分体现，易被认为宣传不实。VLA架构与人类思维相似，最可能实现L4；正与国家相关机构讨论L4政策，深度参与法规建设；内部目标是提供安全的辅助驾驶，并探索更高可实施性，VLA迭代速度快。去年端到端发展迅速，VLA会更快（因摒弃人工测试，依赖无人仿真）。今年年底目标是MPI达到400-500公里（目前为百公里量级），明年达千公里量级。

问题19：咱们说"我们要成为更好的家庭司机"，其实每个人对司机的要求和驾驶感受不一样，有的需要激进一点，有的需要稳妥一点，甚至同样的人也有不一样的需要。今天我们体验到的是在这个路段上开快一点，后续是否有能力做到让它全程开快一点？

郎咸朋：能。未来会提供多种驾驶风格，并非预设，而是根据用户使用偏好调整（如不同路段速度适配），通过强化学习实现。将来会在端侧做强化学习，在用户车上训练专属模型，让车的驾驶风格越来越像用户。

问题20：是否可以理解成这个能力是VLA或理想的技术路线专属的？和其他的友商路线比起来，从产品体验上看，这可以成为一个差异化的地方吗？

郎咸朋：可以。VLA基于强化学习实现该能力，每家友商路线不同，理想的VLA架构可支撑这些产品思路，形成差异化。

问题21：刚才说VLA是很符合人类驾驶逻辑的，但人类还有一个逻辑"有下意识"，突然有东西闯入或侵入的时候，下意识会以安全为主，比如先刹停。像前两天有媒体做了测试，我们看到只要这个策略是保守的，它就可以通过它刹停。我们刚才一直在讨论时延的问题，时延再低也有时延，这个安全兜底的问题是怎么解决的？除了VLA，有没有其他的机制？

湛逸飞：AEB功能会一直保持，理想AEB帧率高，在极端场景下（包括人驾和功能开启状态）可做最后的安全兜底，直接使用感知结果。

问题22：如果车开出来就像自己的话，那驾驶员不同时怎么切换？

郎咸朋：上车时通过FaceID切换驾驶风格。

#扩散模型在自动驾驶基础模型中的应用汇总

扩散模型作为生成式AI的重要技术，近年来在自动驾驶领域展现出广泛的应用前景。该模型凭借其强大的多模态建模能力，能够从复杂数据分布中生成多样性强、符合物理约束的结果，为自动驾驶系统提供新的解决方案。

在感知层面，基于扩散模型的三维占用预测方法显著优于传统判别方法，尤其在处理遮挡或低可见度区域时表现突出，生成的占用特征能有效支持下游规划任务。同时，条件扩散模型被应用于驾驶场景的精准图像翻译，帮助系统更好地理解和适应各种道路环境。
在预测与决策方面，稳定扩散模型可高效完成车辆轨迹预测任务，生成高精度的其他车辆运动轨迹预测结果，显著提升自动驾驶系统的预测能力。DiffusionDrive框架则利用扩散模型对多模态动作分布的建模能力，实现了端到端自动驾驶的创新应用，通过多模态锚点和截断的扩散机制处理驾驶决策中的不确定性。
数据生成是扩散模型另一重要应用方向，有效解决了自然驾驶数据集多样性不足、真实性与可控性受限的难题，为自动驾驶验证提供高质量合成数据。这类可控生成技术对解决3D数据标注挑战尤为重要，未来还将探索视频生成以进一步提升数据质量。
论文标题：Dual-Conditioned Temporal Diffusion Modeling for Driving Scene Generation
主页链接：https://zzzura-secure.duckdns.org/dctdm
代码链接：https://github.com/PeteBai/DcTDM
工作单位：东北大学

ICRA2025美国东北大学中稿的最新工作！扩散模型已被证明在从学习到的分布中生成高质量图像方面非常有效，但其在时间域的应用，尤其是在驾驶场景中的应用，仍未得到充分探索。本文的工作通过扩展扩散模型来生成逼真的长时间驾驶视频，解决了现有仿真中的关键挑战，如数据质量有限、多样性和高成本。本文提出了双条件时间扩散模型（DcTDM），这是一种开源方法，通过引导帧转换来结合双条件来增强时间一致性。除了DcTDM，本文还推出了DriveSceneDDM，这是一个全面的驾驶视频数据集，包含文本场景描述、密集深度图和坎尼边缘数据。本文使用常见的视频质量指标对DcTDM进行了评估，结果表明，通过生成长达40秒、节奏一致且连贯的驾驶视频，DcTDM的性能优于其他视频扩散模型，在一致性和帧质量方面提高了25%以上！

算法概览：

主要实验结果：

标题：LD-Scene: LLM-Guided Diffusion for Controllable Generation of Adversarial Safety-Critical Driving Scenarios
链接：https://arxiv.org/abs/2505.11247
作者单位：香港科技大学（广州），中山大学

为确保自动驾驶系统的安全性与鲁棒性，需在安全关键场景下进行全面评估。然而，此类场景在真实驾驶数据中稀缺且难以收集，对自动驾驶车辆的性能评估构成重大挑战。现有方法通常因可控性有限且依赖专家知识而缺乏用户友好性。为此，本文提出 LD-Scene------一种融合大语言模型（LLMs）与潜在扩散模型（LDMs）的新型框架，通过自然语言实现用户可控的对抗性场景生成。该框架包含一个学习真实驾驶轨迹分布的LDM，以及一个基于LLM的引导模块，后者将用户查询转化为对抗性损失函数，驱动生成符合用户需求的场景。引导模块集成基于LLM的思维链（CoT）代码生成器和代码调试器，提升了对抗场景生成的可控性、鲁棒性与稳定性。在 nuScenes 数据集上的实验表明，LD-Scene 在生成高对抗性、高真实性与多样性的场景中达到最先进性能，同时支持对对抗行为（如碰撞类型与强度）的细粒度控制，为定制化测试提供有效工具。

算法概览：

主要实验结果：

标题：DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion
链接：https://www.arxiv.org/abs/2505.01857
作者单位：西安交通大学，中国科学技术大学

准确且高保真的驾驶场景重建依赖于充分挖掘场景信息作为条件输入。然而，现有方法主要使用3D边界框和二值图进行前景与背景控制，在捕捉场景复杂性和整合多模态信息方面存在明显不足。本文提出DualDiff，一种专为增强多视角驾驶场景生成而设计的双分支条件扩散模型。本文引入了语义丰富的3D表示------占用射线采样（Occupancy Ray Sampling, ORS），并结合数值驾驶场景表示，实现全面的前景与背景控制。为改善跨模态信息整合，本文提出了语义融合注意力（Semantic Fusion Attention, SFA）机制，用于对齐和融合跨模态特征。此外，本文设计了前景感知掩码（Foreground-aware Masked, FGM）损失函数，以增强微小目标的生成质量。DualDiff在FID分数上达到了最先进水平，并在下游的BEV分割和3D目标检测任务中始终取得更优结果。

算法概览：

主要实验结果：

标题：DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer
链接：https://arxiv.org/abs/2504.00000
作者单位：清华大学,哈尔滨工业大学,理想

收集多视图驾驶场景视频以提升 3D 视觉感知任务的性能面临巨大挑战且成本高昂，这使得生成逼真数据的生成模型成为一种极具吸引力的替代方案。然而，现有研究生成的视频存在质量不佳和时空一致性差的问题，削弱了其在推动驾驶场景下感知任务发展中的作用。为解决这一差距，本文提出了 DiVE，这是一种基于扩散 Transformer 的生成框架，专门设计用于生成高保真、时间连贯且跨视图一致的多视图视频，能够与鸟瞰图布局和文本描述无缝对齐。具体而言，DiVE 利用统一的交叉注意力机制和 SketchFormer 对多模态数据进行精确控制，同时引入了不增加额外参数的视图膨胀注意力机制，从而保证视图间的一致性。尽管取得了这些进展，在多模态约束下合成高分辨率视频仍面临双重挑战：研究复杂多条件输入下的最优无分类器引导（CFG）配置，以及减轻高分辨率渲染中的过度计算延迟 ------ 这两者在先前研究中均未得到充分探索。为解决这些局限，本文引入了两项技术创新：（1）多控制辅助分支蒸馏（MAD），它简化了多条件 CFG 选择，同时规避了高昂的计算开销；（2）分辨率渐进采样（RPS），这是一种无需训练的加速策略，通过错开分辨率缩放来减少高分辨率带来的高延迟。这些创新共同实现了 2.62 倍的速度提升，同时几乎不损失性能。在 nuScenes 数据集上的评估表明，DiVE 在多视图视频生成方面达到了最先进的性能，生成的输出具有极高的真实感、出色的时间和跨视图连贯性。通过弥合合成数据质量与真实世界感知需求之间的差距，DiVE 建立了一个强大的生成范式，有望推动 3D 感知系统的重大进步。

算法概览：

主要实验结果：

标题：DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models
链接：https://arxiv.org/abs/2503.05808
作者单位：上海交通大学,长安汽车

交通仿真已成为自动驾驶训练与测试的重要工具。尽管当前数据驱动方法提升了行为生成的逼真度，但其学习过程仍主要依赖单一真实数据集，限制了场景多样性，进而阻碍下游算法优化。本文提出 DriveGen------一种基于大模型的新型交通仿真框架，可生成多样化交通场景并支持定制化设计。DriveGen 包含两个核心阶段：

初始化阶段：利用大语言模型（LLM）与检索技术生成地图及车辆资产；
推理阶段：通过视觉语言模型（VLM）选取路径点目标，结合定制扩散规划器输出轨迹。

该两阶段框架充分运用大模型对驾驶行为的高层认知与推理能力，在保持高真实性的同时，实现超越数据集的多样性。为支持高效下游优化，本文进一步开发 DriveGen-CS------一种自动生成极端案例（Corner Case）的流程，其利用驾驶算法的失败案例作为大模型的提示知识，无需重新训练或微调。实验表明，生成场景与极端案例的质量均优于现有基线；下游实验进一步验证，DriveGen 合成的交通数据能更优地提升典型驾驶算法性能，证明了框架的有效性。

算法概览：

主要实验结果：

标题：Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments
链接：https://arxiv.org/abs/2503.22496
项目主页：https://princeton-computational-imaging.github.io/scenario-dreamer

本文提出Scenario Dreamer，一种完全数据驱动的自动驾驶规划生成仿真器。Scenario Dreamer的核心是一种新颖的向量化潜在扩散模型，用于初始场景生成，相比先前采用栅格化场景编码的方法具有显著的实际优势。实验表明，Scenario Dreamer在真实性和效率方面优于现有生成仿真器：向量化场景生成基础模型以约2倍更少的参数、6倍更低的生成延迟以及10倍更少的GPU训练小时数，实现了优于最强基线的生成质量。本文通过实验证实其实际效用：强化学习规划代理在Scenario Dreamer环境中比在传统非生成仿真环境中面临更大挑战，尤其是在长距离和对抗性驾驶环境中。贡献包括：(1) 本文引入Scenario Dreamer，这是一种完全数据驱动的自动驾驶规划生成仿真器。Scenario Dreamer的核心是一种新颖的向量化潜在扩散模型，用于初始场景生成，相比先前利用栅格化场景编码的方法具有实际优势。(2) 本文证明Scenario Dreamer环境对强化学习规划器构成挑战，特别是在长距离和对抗性驾驶环境中。

算法概览：

主要实验结果：

标题：DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance
链接：https://arxiv.org/abs/2503.03689
项目主页：https://github.com/yangzhaojason/DualDiff
作者单位：西安交通大学,浙江大学,中国科学院自动化研究所等

精确且高保真的驾驶场景重建需要有效利用全面的场景信息作为条件输入。现有方法主要依赖 3D 边界框和BEV道路图来控制前景和背景，但其无法捕捉驾驶场景的全部复杂性，也不能充分融合多模态信息。在本研究中，本文提出了 DualDiff，一种双分支条件扩散模型，旨在提升多视角和视频序列的驾驶场景生成效果。具体而言，本文引入占用率射线形状采样（ORS）作为条件输入，其提供丰富的前景和背景语义信息以及 3D 空间几何结构，以精确控制两者的生成。为改善细粒度前景目标（尤其是复杂和远处目标）的合成效果，本文提出了前景感知掩码（FGM）去噪损失函数。此外，本文开发了语义融合注意力（SFA）机制，以动态优先处理相关信息并抑制噪声，实现更有效的多模态融合。最后，为确保高质量的图像到视频生成，本文引入奖励引导扩散（RGD）框架，以维持生成视频的全局一致性和语义连贯性。大量实验表明，DualDiff 在多个数据集上实现了最先进（SOTA）的性能。在 NuScenes 数据集上，与最佳基线相比，DualDiff 将 FID 分数降低了 4.09%。在下游任务中，如 BEV 分割，本文的方法将车辆 mIoU 提升了 4.50%，道路 mIoU 提升了 1.70%；在 BEV 3D 目标检测中，前景 mAP 提高了 1.46%。

算法概览：

主要实验结果：

标题：AVD2: Accident Video Diffusion for Accident Video Description
链接：https://arxiv.org/pdf/2502.14801
项目主页：https://an-answer-tree.github.io/
作者单位：香港科技大学，AIR，吉林大学等

交通事故对自动驾驶系统提出了复杂挑战，其不可预测性常导致系统难以精准解析与响应。然而，由于事故场景训练数据的匮乏，现有方法难以阐明事故成因并提出预防策略。为此，本文提出 AVD2（事故视频扩散描述框架），该框架通过生成与详细自然语言描述及推理对齐的事故视频，增强事故场景理解能力，并构建 EMM-AU（增强型多模态事故视频理解）数据集。实验表明，集成 EMM-AU 数据集后，模型在自动化指标与人工评估中均达到 SOTA 性能，显著推动了事故分析与预防领域的发展。

算法概览：

主要实验结果：

标题：Causal Composition Diffusion Model for Closed-loop Traffic Generation
链接：https://arxiv.org/abs/2412.17920
项目主页：https://sites.google.com/view/ccdiff/
作者单位：卡内基梅隆大学，伊利诺伊大学香槟分校等

本文提出CCDiff（因果组合扩散模型），旨在提升自动驾驶领域闭环安全关键场景生成中的可控性与真实性。基于约束因子化马尔可夫决策过程（constrained factored MDP）的框架，CCDiff首先识别智能体间的潜在因果结构，然后将该结构融入场景编码器，并基于因果知识对智能体的重要性进行排序，从而提升生成场景的真实性。CCDiff同时采用因果组合场景编码与分解式引导策略，有效解决了可控性与真实性目标间的梯度冲突问题。在基准数据集和闭环仿真器中的严格评估表明，CCDiff在生成真实且符合用户偏好的轨迹方面显著优于现有最先进方法。实验结果证实CCDiff在提取和利用因果结构方面的有效性，基于碰撞率、偏离道路率、最终位移误差和舒适距离等关键指标，展示了改进的闭环性能。

算法概览：

主要实验结果：

标题：Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation
链接：https://arxiv.org/abs/2502.12178
作者单位：浦项科技大学，NAVER LABS

基于扩散的模型在利用真实世界驾驶数据生成真实且多样的交通场景方面的有效性已得到认可。这些模型采用引导采样来整合特定的交通偏好并增强场景真实性。然而，引导采样过程以符合交通规则和偏好可能导致偏离真实世界交通先验，进而可能产生不真实的行为。为解决这一挑战，本文提出了一种多引导扩散模型，该模型采用新颖的训练策略，即使在使用多种引导组合时也能紧密贴合交通先验。该模型采用多任务学习框架，使单个扩散模型能够处理各种引导输入。为提高引导采样精度，本文使用直接偏好优化（DPO）算法对模型进行微调。该算法基于引导分数优化偏好，有效应对引导采样微调过程中昂贵且常不可微分的梯度计算所带来的复杂性和挑战。在 nuScenes 数据集上的评估表明，本文的模型为平衡交通场景生成中的真实性、多样性和可控性提供了强有力的基准。

算法概览：

主要实验结果：

标题：SceneDiffuser: Efficient and Controllable Driving Simulation Initialization and Rollout
链接：https://arxiv.org/pdf/2412.12129
项目主页：https://sjyu001.github.io/MuDi-Pro/
作者单位：Waymo LLC

逼真且交互式的场景仿真是自动驾驶开发的关键前提。本文提出 SceneDiffuser，一种面向交通仿真的场景级扩散先验模型。该模型提供统一框架，解决仿真的两个核心阶段：场景初始化（生成初始交通布局）与场景推演（智能体行为的闭环仿真）。尽管扩散模型已被证明能有效学习逼真且多模态的智能体分布，但仍存在可控性、闭环仿真真实性及推理效率等挑战。为此，本文引入分摊扩散仿真技术。这一新型扩散去噪范式将去噪计算成本分摊至未来仿真步骤中，显著降低单步推演成本（推理步数减少16倍），同时缓解闭环误差。本文进一步通过广义硬约束（一种高效推理时约束机制）及基于大语言模型（LLM）少样本提示的约束化场景生成提升可控性。模型扩展研究表明，增加计算资源可显著提升整体仿真真实性。在Waymo开放仿真智能体挑战赛（WOSAC）中，本文的方法在开环性能上达到最优，并在扩散模型中取得最佳闭环性能。

算法概览：

主要实验结果：

标题：DiffRoad: Realistic and Diverse Road Scenario Generation for Autonomous Vehicle Testing
链接：https://arxiv.org/abs/2411.09451
作者单位：上海交通大学，新加坡国立大学

生成真实且多样化的道路场景对于自动驾驶车辆的测试和验证至关重要。然而，由于真实世界道路环境的复杂性和多变性，为智能驾驶测试创建真实且多样化的场景具有挑战性。本文提出DiffRoad，一种新型扩散模型，旨在生成可控制且高保真的3D道路场景。DiffRoad利用扩散模型的生成能力，通过逆向去噪过程从白噪声中合成道路布局，保留真实世界的空间特征。为提高生成场景的质量，本文设计了Road-UNet架构，优化主干网络和跳跃连接之间的平衡，以实现高真实感的场景生成。此外，本文引入了一个道路场景评估模块，该模块使用两个关键指标------道路连续性和道路合理性------筛选适合智能驾驶测试的充分且合理的场景。在多个真实世界数据集上的实验结果表明，DiffRoad能够生成真实且平滑的道路结构，同时保持原始分布特性。此外，生成的场景可以完全自动化转换为OpenDRIVE格式，便于通用的自动驾驶车辆仿真测试。

算法概览：

主要实验结果：

标题：Data-driven Diffusion Models for Enhancing Safety in Autonomous Vehicle Traffic Simulations
链接：https://arxiv.org/abs/2410.04809
作者单位：芬兰阿尔托大学等

安全关键交通场景是自动驾驶系统开发与验证的核心组成部分。这些场景能为车辆在现实世界中罕见的高风险条件下的响应提供关键见解。近年来，在关键场景生成领域的进展表明，与传统生成模型相比，基于扩散模型的方法在有效性和真实性方面具有显著优势。然而，当前基于扩散模型的方法未能充分解决驾驶员行为复杂性和交通密度信息的问题，而这两者均对驾驶员的决策过程有重要影响。在本研究中，本文提出了一种新颖的方法来克服这些局限性，通过为扩散模型引入融合行为复杂性和交通密度的对抗性引导函数，从而增强更有效、更真实的安全关键交通场景的生成。所提方法通过有效性和真实性两个评估指标进行评价，结果表明，与其他最先进的方法相比，该方法具有更优的效能。

算法概览：

主要实验结果：

标题：AdvDiffuser: Generating Adversarial Safety-Critical Driving Scenarios via Guided Diffusion
链接：https://ieeexplore.ieee.org/abstract/document/10802408
作者单位：中山大学，武汉大学，中国科学院自动化研究所等

安全关键场景在自然驾驶环境中虽不常见，但对自动驾驶系统的训练与测试至关重要。当前主流方法通过对自然环境引入对抗性调整，在仿真中自动生成安全关键场景。然而，这些调整通常针对特定被测系统设计，缺乏跨系统的可迁移性。本文提出 AdvDiffuser------一种基于引导扩散的对抗性框架，用于生成安全关键驾驶场景。该框架结合扩散模型捕捉背景车辆的合理群体行为，并利用轻量级引导模型有效处理对抗场景，从而提升可迁移性。在 nuScenes 数据集上的实验表明：AdvDiffuser 基于离线驾驶日志训练，仅需极少量预热回合数据即可适配多种被测系统，且在真实性、多样性和对抗性表现上均优于现有方法。

算法概览：

主要实验结果：

标题：DrivingGen: Efficient Safety-Critical Driving Video Generation with Latent Diffusion Models
链接：https://ieeexplore.ieee.org/document/10688119
标题：SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic
链接：https://arxiv.org/abs/2403.17933
项目主页：https://github.com/autonomousvision/sledge
作者单位：图宾根大学

SLEDGE是首个基于真实驾驶日志训练的用于车辆运动规划的生成式仿真器。其核心组件是一个能够生成智能体边界框和车道图的可学习模型。该模型的输出作为基于规则的交通仿真的初始状态。SLEDGE需要生成的实体具有独特的属性，例如它们的连通性和每场景可变的数量，这使得直接应用大多数现代生成模型到此任务上变得非平凡。因此，结合对现有车道图表示的系统研究，本文引入了一种新颖的光栅到矢量的自编码器（raster-to-vector autoencoder）。它将智能体和车道图编码到光栅化潜在地图（rasterized latent map）中的不同通道。这促进了基于车道条件的智能体生成，以及使用扩散Transformer（Diffusion Transformer）联合生成车道和智能体。在SLEDGE中使用生成的实体可以实现对仿真的更大控制，例如对转弯进行上采样或增加交通密度。此外，SLEDGE可以支持500米长的路线，这一能力在现有的数据驱动仿真器（如nuPlan）中是不存在的。它为规划算法提出了新的挑战，当在由本文的模型生成的困难路线和密集交通上进行测试时，2023年nuPlan挑战赛的获胜者PDM的失败率超过40%。与nuPlan相比，SLEDGE的设置所需的存储空间减少了500倍（<4 GB），使其成为一个更易于访问的选择，并有助于推动该领域未来研究的普及化。

算法概览：

主要实验结果：

标题：SceneControl: Diffusion for Controllable Traffic Scene Generation
链接：https://waabi.ai/scenecontrol/
作者单位：wabbi

ICRA 2024中稿的工作。我们考虑了交通场景生成的任务。自动驾驶行业的一种常见方法是使用人工创建来生成具有特定特征的场景，并使用自动生成来大规模生成规范场景。然而，人工创建不可扩展，而自动生成通常使用基于规则的算法，这些算法缺乏真实感。在本文中，我们提出了SceneControl，一个用于可控交通场景生成的框架。为了捕捉真实交通的复杂性，SceneControl从数据中学习了一个表现力强的扩散模型。然后，通过引导采样，我们可以灵活地控制采样过程，以生成具有所需特征的场景。我们的实验表明，SceneControl比现有的最先进技术具有更高的真实性和可控性。我们还说明了如何将SceneControl用作交互式交通场景生成的工具。

算法概览：

标题：Versatile Behavior Diffusion for Generalized Traffic Agent Simulation
链接：https://arxiv.org/abs/2404.02524
项目主页：https://sites.google.com/view/versatile-behavior-diffusion
作者单位：南洋理工大学，普林斯顿大学，NVIDIA

现有交通仿真模型往往难以捕捉现实世界场景的复杂性，限制了对自动驾驶系统的有效评估。本文提出了通用行为扩散（VBD）框架，这是一种新颖的交通场景生成框架，它利用扩散生成模型在闭环环境中预测场景一致且可控的多智能体交互。VBD 在 Waymo 仿真智能体基准测试中实现了最先进的性能，能够在多样的环境条件下有效生成具有复杂智能体交互的真实、连贯的交通行为。此外，VBD 通过基于行为先验和模型优化目标的多步细化，支持推理时的场景编辑。这种能力支持可控的多智能体行为生成，可满足各种交通仿真应用中的广泛用户需求。尽管仅在代表典型交通条件的公开数据集上训练，本文引入的冲突先验和博弈论引导方法仍能生成交互式、长尾安全关键场景 ------ 这对自动驾驶车辆的全面测试和验证至关重要。最后，本文深入探讨了基于扩散的交通场景生成模型的有效训练和推理策略，强调了最佳实践和常见陷阱。本文的工作显著提升了仿真复杂交通环境的能力，为自动驾驶技术的开发和评估提供了强大工具。

算法概览：

主要实验结果：

标题：GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model
链接：https://arxiv.org/abs/2408.15868
作者单位：哥伦比亚大学

自动驾驶训练需涵盖多样交通状况、天气场景及道路类型的数据集。传统数据增强方法难以生成表征罕见事件的数据。为此，本文提出 GenDDS ------一种基于先进隐扩散模型 Stable Diffusion XL (SDXL) 的驾驶场景生成方法。该方法通过描述性提示（prompt）引导合成过程，生成逼真且多样化的驾驶场景。结合最新计算机视觉技术（如 ControlNet 和 Hotshot-XL），本文构建了完整的视频生成流程，并利用真实驾驶视频数据集 KITTI 训练模型。实验表明，该模型可生成高质量驾驶视频，精准复现真实驾驶场景的复杂性与多变性。本研究为自动驾驶系统提供了先进的训练数据生成方案，并为仿真验证的虚拟环境创建开辟了新途径。

算法概览：

主要实验结果：

标题：GEODIFFUSION: Text-Prompted Geometric Control for Object Detection Data Generation
链接：https://arxiv.org/pdf/2306.04607
项目主页：https://kaichen1998.github.io/projects/geodiffusion/?spm=a2ty_o01.29997173.0.0.1300c921gCBBTX
作者单位：香港科技大学，华为诺亚方舟实验室，南京大学等

扩散模型因其卓越的内容生成能力而在图像分类等任务的数据生成方面引起了广泛关注。然而，利用扩散模型生成高质量的目标检测数据仍然是一个探索不足的领域，在该领域中不仅需要关注图像级的感知质量，还需满足边界框和相机视角等几何条件。

先前的研究主要采用复制粘贴合成方法或具有特定设计模块的布局到图像（L2I）生成方法来编码语义布局。本文提出了GEODIFFUSION，这是一个简单框架，能够灵活地将各种几何条件转换为文本提示，并赋能预训练的文本到图像（T2I）扩散模型进行高质量检测数据生成。

与先前的L2I方法不同，本文的GEODIFFUSION不仅能够编码边界框，还能够编码自动驾驶场景中的额外几何条件（如相机视角）。大量实验表明，GEODIFFUSION在保持训练时间快4倍的同时，性能优于先前的L2I方法。据本文所知，这是首次采用扩散模型进行具有几何条件的布局到图像生成，并证明L2I生成的图像有助于提高目标检测器性能的工作。

算法概览：

主要实验结果：

标题：Text2Street: Controllable Text-to-image Generation for Street Views
链接：https://arxiv.org/abs/2402.04504
作者单位：美团

随着扩散模型的兴起，文本到图像生成取得了显著进展。然而，基于文本生成街景图像仍是一项难题，主要挑战源于：1）复杂的道路拓扑（如交叉路口结构、符合交规的车道线数量），2）多样的交通状态（如指定数量的车辆 / 行人及其合规布局），3）多变的天气条件（如雨天、夜间光照）。传统模型因缺乏细粒度控制能力，难以同时满足上述约束（如图 1 所示，微调后的 Stable Diffusion 仍无法准确生成指定车道数和车辆数的场景）。

本文提出Text2Street 框架，通过三阶段实现可控生成：

车道感知道路拓扑生成器：结合计数适配器（Counting Adapter），将文本描述（如 "3 车道"）转化为包含精确道路结构和合规车道线的局部语义地图，解决传统模型因图像遮挡导致的道路信息缺失问题；
基于位置的目标布局生成器：通过目标级边界框扩散策略，在语义地图约束下生成符合交通规则的目标布局（如 "4 车 1 卡车" 的位置和方向），突破传统模型对数量控制的不敏感问题；
多控制图像生成器：融合投影后的道路语义掩码、目标布局和天气文本，通过 ControlNet 和位置编码实现多条件协同控制，最终生成符合交规、数量精准且场景一致的街景图像。

实验表明，Text2Street 在 nuScenes 数据集上显著优于 Stable Diffusion 等模型（车道计数准确率提升 14.91%，目标计数准确率提升 16.5%），验证了其在复杂街景生成中的可控性和有效性。

算法概览：

主要实验结果：

标题：SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries
PDF：https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03157-supp.pdf
标题：Panacea: Panoramic and Controllable Video Generation for Autonomous Driving
链接：https://arxiv.org/abs/2311.16813
作者单位：中国科学技术大学，旷视科技等

自动驾驶领域对高质量标注训练数据的需求日益增长。本文提出 Panacea------一种创新方法，用于生成驾驶场景中的全景可控视频，可产生无限量多样化的标注样本，对自动驾驶发展至关重要。Panacea 解决了两个核心挑战：

一致性：确保时间连续性与跨视角连贯性；
可控性：保证生成内容与标注（如鸟瞰图布局）精确对齐。

该方法融合了新型 4D 注意力机制与两阶段生成流程以维持一致性，并通过 ControlNet 框架实现对鸟瞰图（BEV）布局的精细化控制。在 nuScenes 数据集上的定性与定量实验表明，Panacea 能高效生成高质量多视角驾驶场景视频。本工作通过增强 BEV 感知技术的训练数据，显著推动了自动驾驶领域发展。

算法概览：

主要实验结果：

标题：Scenario Diffusion: Controllable Driving Scenario Generation With Diffusion
链接：https://neurips.cc/virtual/2023/poster/72611
作者单位：Zoox

自动生成合成交通场景是验证自动驾驶车辆（AV）安全性的关键环节。在本文中，我们提出了场景扩散（Scenario Diffusion）这一基于扩散的新架构，用于生成交通场景，并实现了场景生成的可控性。我们结合了潜在扩散、目标检测和轨迹回归，以同时生成合成智能体姿态、方向和轨迹的分布。为了对生成的场景进行额外控制，该分布以地图和描述所需场景的标记集为条件。我们证明，我们的方法具有足够的表达能力，能够模拟多种交通模式，并可推广到不同的地理区域。

算法概览：

主要实验结果：

标题：Language-guided traffic simulation via scene-level diffusion
链接：https://research.nvidia.com/labs/avg/publication/zhong.rempe.etal.corl23/
作者单位：英伟达

真实且可控的交通仿真技术是加速自动驾驶车辆（AV）开发的核心能力。然而当前控制基于学习的交通模型的方法需要深厚的领域专业知识，对于从业者而言难以使用。为解决这一问题，我们提出了CTG++，这是一种场景级条件扩散模型，可通过语言指令进行引导。开发这一模型需要应对两大挑战：一是需要一个真实且可控的交通模型主干；二是需要一种有效的方法来使用语言与交通模型进行交互。为应对这些挑战，我们首先提出了一种配备时空Transformer主干的场景级扩散模型，该模型能够生成真实且可控的交通。然后，我们利用大型语言模型（LLM）将用户的查询转换为损失函数，引导扩散模型生成符合查询要求的交通。通过综合评估，我们证明了所提方法在生成真实且符合查询要求的交通仿真方面的有效性。

算法概览：

主要实验结果：

标题：DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model
链接：https://arxiv.org/abs/2310.07771
项目主页：https://drivingdiffusion.github.io/
作者单位：百度

随着基于强大且统一的BEV表示的自动驾驶技术日益普及，对高质量、大规模且具有精确标注的多视角视频数据的需求变得尤为迫切。然而，由于采集和标注成本高昂，此类大规模多视角数据难以获取。为缓解这一问题，本文提出了一种时空一致的扩散框架DrivingDiffusion，用于生成由3D布局控制的真实多视角视频。在给定3D布局合成多视角视频时存在三个主要挑战：如何保持1）跨视角一致性；2）跨帧（时间）一致性；3）如何保证生成实例的质量？本文的DrivingDiffusion通过级联多视角单帧图像生成步骤、多摄像头共享的单视角视频生成步骤以及可处理长视频生成的后处理步骤来解决这些问题。在多视角模型中，通过相邻摄像头之间的信息交换确保多视角图像的一致性。在时序模型中，本文主要从第一帧的多视角图像中查询后续帧生成所需关注的信息。本文还引入了局部提示（local prompt）来有效提高生成实例的质量。在后处理中，本文通过采用时序滑动窗口算法进一步增强后续帧的跨视角一致性并扩展视频长度。无需额外成本，本文的模型能够在复杂城市场景中生成大规模真实多摄像头驾驶视频，为下游驾驶任务提供支持。

算法概览：

主要实验结果：

标题：MagicDrive: Street View Generation with Diverse 3D Geometry Control
链接：https://arxiv.org/abs/2310.02601
项目主页：https://flymin.github.io/magicdrive
作者单位：香港中文大学，香港科技大学，华为诺亚方舟实验室

近年来，扩散模型的进步显著提升了 2D 条件下的数据合成能力，但自动驾驶场景中至关重要的3D 几何精确控制（如高度、遮挡、路面高程）仍存在挑战。现有方法依赖鸟瞰图（BEV）作为主要条件，导致几何控制（如高度）失效，影响 3D 感知任务（如 3D 目标检测）的数据质量。

本文提出MAGICDRIVE，一种新型街景生成框架，通过定制化编码策略，融合相机位姿、道路地图、3D 包围盒及文本描述，实现多样化 3D 几何控制。框架设计了跨视图注意力模块，确保多相机视角一致性。实验表明，MAGICDRIVE 能生成高保真街景图像 / 视频，捕捉细微 3D 几何特征（如车辆高度、路面起伏），显著提升 BEV 分割和 3D 目标检测任务性能。与现有方法（如 BEVGen、BEVControl）相比，MAGICDRIVE 通过分离前景（3D 包围盒）与背景（道路地图）编码，避免了 BEV 投影导致的几何信息丢失，同时支持天气、时间等场景属性控制。

算法概览：

主要实验结果：

标题：DriveSceneGen: Generating Diverse and Realistic Driving Scenarios From Scratch
链接：https://arxiv.org/abs/2309.14685
项目主页：https://ss47816.github.io/DriveSceneGen/?spm=a2ty_o01.29997173.0.0.52b1c921UxJtUj
作者单位：新加坡国立大学

大量真实且多样化的交通场景对于自动驾驶系统的开发和验证至关重要。然而，由于数据收集过程中的诸多困难以及对密集标注的依赖，真实世界数据集缺乏足够的数量和多样性来满足日益增长的数据需求。本工作提出了DriveSceneGen，一种数据驱动的驾驶场景生成方法，该方法从真实驾驶数据集学习并从零开始生成完整的动态驾驶场景。DriveSceneGen能够以高保真度和多样性生成与真实世界数据分布一致的新型驾驶场景。在5000个生成场景上的实验结果突显了与真实世界数据集相比的生成质量、多样性和可扩展性。据本文所知，DriveSceneGen是首个从零开始生成包含静态地图元素和动态交通参与者的新型驾驶场景的方法。

算法概览：

主要实验结果：

标题：BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout
链接：https://arxiv.org/abs/2308.01661
作者单位：天津大学，天津大学，西湖大学等

利用合成图像提升感知模型性能是计算机视觉领域的长期挑战。在以视觉为中心的多摄像头自动驾驶系统中，该问题尤为突出，因为某些长尾场景难以通过实际采集获取。现有生成网络在BEV分割布局的引导下，虽在场景级指标下能合成逼真的街景图像，但放大后常无法生成准确的前景（如车辆朝向）和背景细节。为此，本文提出一种两阶段生成方法 BEVControl，可精确控制前景与背景内容。与分割式输入不同，BEVControl支持草图式输入，更便于人工编辑。此外，本文提出一套多层级评估协议，综合衡量生成场景、前景目标及背景几何的质量。大量实验表明：BEVControl在前景分割mIoU上显著超越当前最优方法BEVGen（5.89→26.80）；使用其生成图像训练下游感知模型，NDS指标平均提升1.29。

算法概览：

主要实验结果：

标题：DiffScene: Guided Diffusion Models for Safety-Critical Scenario Generation
链接：https://openreview.net/forum?id=hclEbdHida
作者单位：伊利诺伊大学厄巴纳-香槟分校、CMU等

自动驾驶（AD）领域近年来取得了显著进展。在所面临的各种挑战中，自动驾驶车辆（AV）的安全评估尤为关键。传统评估方法既昂贵又低效，往往需要大量的行驶里程才能遇到罕见的安全关键场景，而这些场景分布在复杂现实世界驾驶场景的长尾区域。在本文中，我们提出了一种统一的方法------基于扩散的安全关键场景生成（DiffScene），用于生成既真实又安全关键的高质量安全关键场景，以实现高效的自动驾驶评估。具体而言，我们提出了一个基于扩散的生成框架，利用扩散模型近似低密度空间分布的能力。我们设计了多个对抗性优化目标，以在预定义的对抗性预算下指导扩散生成。这些目标，如基于安全的目标、基于功能的目标和基于约束的目标，确保在遵守特定约束的同时生成安全关键场景。我们进行了大量实验来验证我们方法的有效性。与6个最先进的基线方法相比，DiffScene生成的场景（1）在3个指标上更具安全关键性，（2）在5个距离函数上更真实，（3）对不同自动驾驶算法更具可转移性。此外，我们还证明了，与基线方法相比，使用DiffScene生成的场景训练自动驾驶算法在安全关键指标方面表现显著提升。这些发现凸显了DiffScene在解决自动驾驶安全评估挑战方面的潜力，为更高效、更有效的自动驾驶开发铺平了道路。

算法概览：

主要实验结果：

标题：Generating Driving Scenes with Diffusion
链接：https://arxiv.org/abs/2305.18452
作者单位：Zoox，麻省理工学院

本文提出了一种交通场景生成的习得方法，旨在仿真自动驾驶汽车感知系统的输出。在本文受潜在扩散启发的 "场景扩散"（Scene Diffusion）系统中，本文创新性地结合了扩散模型与目标检测，直接生成具有现实性和物理合理性的智能体离散边界框布局。本文的场景生成模型能够适应美国不同的地区，生成的场景能够捕捉每个地区的复杂特征。

算法概览：

主要实验结果：

标题：Guided Conditional Diffusion for Controllable Traffic Simulation
链接：https://aiasd.github.io/ctg.github.io/
作者单位：NVIDIA、斯坦福等

ICRA2023中稿的工作！

可控且逼真的交通仿真对于开发和验证自动驾驶车辆至关重要。典型的基于启发式的交通模型提供灵活的控制，使车辆能够遵循特定的轨迹和交通规则。另一方面，数据驱动的方法能够生成逼真且类似人类的行为，从而改善从仿真到真实交通的迁移。然而，据我们所知，尚无交通模型同时具备可控性和逼真性。在本文中，我们开发了一种用于可控交通生成（CTG）的条件扩散模型，该模型允许用户在测试时控制轨迹的期望属性（例如，到达目标或遵守限速），同时通过强制动力学保持逼真性和物理可行性。关键技术思想是利用扩散建模和可微逻辑的最新进展，引导生成的轨迹满足使用信号时态逻辑（STL）定义的规则。我们进一步将引导扩展到多智能体设置，并启用基于交互的规则，如避免碰撞。CTG在nuScenes数据集上针对多种复合规则进行了广泛评估，在可控性与逼真性的权衡方面，其表现优于强大的基线模型。

算法概览：

主要实验结果：

#首篇智能体自进化综述：迈向超级人工智能之路~

普林斯顿大学、普林斯顿AI Lab、清华大学、卡内基梅隆、上交等团队最新的自进化Agent综述！系统梳理了这个关键节点，尤其展开研究了三个核心问题：

进化什么？（模型、记忆、工具、架构等）
何时进化？（Test-Time 阶段内 vs 阶段间）
如何进化？（通过奖励、反馈、记忆、搜索等机制）

我们总结了相关都最新算法、评估指标与基准任务，并总结了多个应用场景，旨在探讨面向 Super Intelligence 的长期路径。

arXiv: https://arxiv.org/pdf/2507.21046
HuggingFace：https://huggingface.co/papers/2507.21046
GitHub: https://github.com/CharlesQ9/Self-Evolving-Agents

大语言模型（LLMs）在多种任务中展现了卓越的能力，但其本质上仍是静态的，无法在面对新任务、不断进化的知识领域或动态交互环境时调整其内部参数。随着LLMs被越来越多地部署于开放、交互式环境中，这种静态特性已成为一个关键瓶颈，迫切需要能够实时进行自适应推理、行动和进化的智能体。这一范式转变------从扩展静态模型转向开发自我进化的智能体------激发了人们对能够实现从数据、交互和经验中持续学习与适应的架构和方法的日益关注。本综述首次对自我进化智能体进行了系统而全面的回顾，围绕三个基础维度组织该领域：进化的对象 （what to evolve）、进化的时机 （when to evolve）和进化的机制 （how to evolve）。我们考察了智能体各组成部分（例如，模型、记忆、工具、架构）的进化机制，按阶段（例如，测试内、测试间）对适应方法进行分类，并分析了指导进化适应的算法与架构设计（例如，标量奖励、文本反馈、单智能体与多智能体系统）。此外，我们分析了专为自我进化智能体定制的评估指标和基准，重点介绍了其在编程、教育和医疗等领域的应用，并指出了在安全性、可扩展性和协同进化动态等方面的关键挑战与研究方向。通过提供一个理解与设计自我进化智能体的结构化框架，本综述为推进研究和现实应用中更具适应性、鲁棒性和多功能性的智能体系统建立了路线图，最终为实现人工超级智能（ASI）铺平道路------在该愿景中，智能体能够自主进化，在广泛的任务上达到甚至超越人类水平的智能。

简介

It is not the most intellectual of the species that survives; it is not the strongest that survives; but the species that survives is the one that is able best to adapt and adjust to the changing environment in which it finds itself -- Charles Darwin

大语言模型（LLMs）在多种任务中展现了卓越的能力。然而，它们本质上仍是静态的，在面对新任务、不断进化的知识领域或动态交互环境时，无法调整其内部参数。随着LLMs越来越多地被部署于开放、交互式的环境中，这一局限性已成为一个关键瓶颈。在此类场景中，传统的知识检索机制显得力不从心，从而催生了能够实时动态调整其感知、推理和行动的智能体。这种对动态、持续适应性的新兴需求，标志着人工智能领域的一次概念性转变：从扩大静态模型的规模，转向开发能够从新数据、交互和经验中实时持续学习的自进化智能体，从而打造出更稳健、更灵活、更有能力应对复杂动态现实世界问题的系统。这一转变正引领我们走向通往人工超级智能（ASI）的一条充满希望且具有变革性的道路，在此愿景中，智能体不仅能以不可预测的速度从经验中学习和进化，还能在广泛的任务上达到甚至超越人类水平的智能。

与受限于无法适应新奇和不断变化环境的静态LLMs不同，自进化智能体旨在通过持续从现实世界反馈中学习来克服这些局限。这一发展重塑了我们对智能体的理解。作为核心概念，自进化智能体将成为ASI的先驱，扮演着为智能的终极进化铺平道路的中介角色，如图1所示。近期的研究工作日益聚焦于开发能够从经验中持续学习和适应的自适应智能体架构，例如在智能体框架、提示策略以及不同优化方式以实现进化方面的最新进展。尽管取得了这些进步，现有的综述大多将智能体进化作为其综合智能体分类中的一个次要组成部分。先前的综述主要提供了对通用智能体开发的系统性概述，而对自进化智能体在受限场景下的自进化机制的覆盖则非常有限。例如，Luo等人讨论了自我学习和多智能体协同进化等多种进化方式，而Liu等人则明确从智能体的不同组成部分（如工具和提示）的角度引入了进化概念。此外，一些研究专门关注语言模型本身的进化，而非智能体这一更广泛的概念。然而，目前尚无一项系统性综述致力于将自进化智能体作为首要研究范式进行专门且全面的探讨。这一空白导致一些根本性问题尚未得到充分探索：智能体的哪些方面应该进化？适应应在何时发生？以及在实践中应如何实现这种进化？

据我们所知，这是第一篇专注于自进化智能体的系统性、全面性综述，为理论探究和实际部署提供了清晰的路线图。我们围绕三个基础性问题------"进化什么"、"何时进化"和"如何进化"------来组织我们的分析，并为每个问题提供一个结构化框架。具体而言，我们系统地审视了智能体的各个组成部分，包括模型、记忆、工具及相应的工作流程，研究了它们各自独特的进化机制；然后，我们根据不同的时间阶段，将现有的进化方法划分为不同的学习范式，例如监督微调、强化学习和推理时进化（；最后，我们总结了指导智能体进化的不同信号（如文本反馈或标量奖励）以及智能体进化的不同架构（如单智能体和多智能体进化）。此外，我们回顾了用于追踪自进化智能体现有进展的评估指标和基准，强调了智能体与评估之间协同进化的重要性。我们还探讨了在编程、教育和医疗等领域的新兴应用，这些领域中持续适应和进化至关重要。最后，我们指出了持续存在的挑战，并概述了有前景的研究方向，以指导自进化智能体的发展。通过对自进化过程在正交维度上的系统性分解，我们提供了一个结构化且实用的框架，使研究人员能够系统地分析、比较和设计更稳健、更具适应性的智能体系统。总而言之，我们的主要贡献如下：

建立了一个统一的理论框架，用以描述智能体系统中的自进化过程，该框架围绕三个基本维度：进化的对象、进化的机制和进化的时机，为未来自进化智能体系统的设计提供了明确的指导。
进一步研究了专为自进化智能体定制的评估基准或环境，突出了与适应性、鲁棒性和现实世界复杂性相关的新兴指标和挑战。
展示了在自主软件工程、个性化教育、医疗保健和智能虚拟助手等多个领域的关键实际应用，阐明了自进化智能体的实际潜力。
指出了关键的开放性挑战和有前景的未来研究方向，强调了安全性、个性化、多智能体协同进化和可扩展性等方面。

通过本综述，我们为研究人员和从业者提供了一个更结构化的分类体系，以便从不同角度理解、比较和推进自进化智能体的研究。随着基于LLM的智能体越来越多地被集成到关键任务应用中，理解其进化动态变得至关重要，这已超越了学术研究的范畴，延伸至工业应用、监管考量以及更广泛的社会影响。

定义与基础

在深入进行全面的综述之前，我们首先为自进化智能体（self-evolving agents）提供一个正式的定义，并介绍其关键方面的分类体系。我们还将讨论自进化智能体与其他著名学习范式（如课程学习、持续学习、模型编辑和遗忘）之间的关系，以突出自进化智能体的适应性、动态性和自主性本质。

定义

环境我们首先将智能体系统所处的环境（包括用户和执行环境，例如Linux shell）定义为一个部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP），表示为一个元组，其中：

是一组潜在目标。每个是智能体需要实现的任务目标，例如一个用户查询。
是一组状态。每个代表环境的内部状态。
是一组动作。每个动作可以是文本推理、检索外部知识和调用工具的组合。
是状态转移函数，它定义了在给定动作下，从状态转移到状态的概率，即。
是奖励函数，它为在状态执行动作提供一个标量奖励信号。
是一组观测值。每个观测值代表环境向智能体提供的信息，例如网页内容或API响应。
是观测函数，它定义了在状态下生成观测值的概率，即。
是折扣因子，用于衡量未来奖励的重要性。

智能体 智能体是一个从观测值序列映射到动作的策略，即。该策略可以由一个大型语言模型（LLM）实现，其参数为。智能体通过与环境的交互来完成任务，其目标是最大化累积奖励。

自进化智能体 自进化智能体是一种能够通过与环境的交互，自主地、持续地改进其自身组件（如模型、记忆、工具和工作流）的智能体。这种改进旨在增强其在当前和未来任务上的性能、适应性和通用性。与传统的静态模型或仅在推理时通过上下文学习（ICL）进行适应的智能体不同，自进化智能体能够通过多种机制（如参数微调、记忆更新、工具创建和架构调整）实现更深层次的、持久的进化。

与其他工作的关系

自进化智能体与多个现有的学习范式密切相关，但又有着本质的区别。理解这些关系有助于明确其独特性。

**课程学习 (Curriculum Learning)**：课程学习通过从简单任务到复杂任务的有序安排来训练模型。虽然课程学习关注学习过程的顺序，但它通常是在一个固定的模型架构和参数集上进行的。自进化智能体则更进一步，不仅学习任务本身，还能动态地调整其内部结构（如创建新工具或优化工作流）以适应不断变化的挑战，体现了更强的自主性和适应性。
持续学习 / 终身学习 (Lifelong Learning)：持续学习旨在让模型在不遗忘旧知识的前提下，持续学习新任务。它主要关注知识的保留 （Retention）和前向迁移 （Forward Transfer）。自进化智能体不仅包含了持续学习的目标，还强调了后向迁移 （Backward Transfer, BWT）------即通过新任务的经验来提升在旧任务上的表现------以及更广泛的适应性 （Adaptivity）和效率（Efficiency）。此外，自进化智能体的"进化"不仅限于模型参数，还涵盖了工具、记忆和架构等多个层面。
**模型编辑 (Model Editing)**：模型编辑技术旨在对预训练模型的特定知识进行精确、局部的修改，而无需对整个模型进行重新训练。这可以看作是自进化智能体在"模型"层面的一种特定进化方式。然而，自进化智能体的进化范围更广，不仅包括参数层面的编辑，还包括通过创建新工具或更新记忆库来扩展能力，其目标是实现更全面、更自主的系统级进化。
遗忘 (Unlearning)：遗忘是指从模型中移除特定知识或能力的过程。这在自进化智能体中也是一个重要的考量，尤其是在需要遵守隐私法规或纠正错误知识时。一个成熟的自进化框架应该能够同时支持知识的"习得"和"遗忘"，以确保其行为的安全性（Safety）和可控性。

What to Evolve?

从预编程的静态系统向真正自主的智能体转变，其关键在于一个核心能力：自进化。这种持续改进的能力并非单一的；相反，它体现在智能体自身的各个方面。因此，自进化智能体的第一个关键方面是识别进化的组件------在智能体系统中，哪些组件可以随着时间的推移被明确地改变？

我们可以将智能体系统分解为四个基本的、可进化的支柱。

我们的研究首先从智能体的认知核心------模型开始，探讨如何通过智能体自身的经验持续更新其推理和行为的基本参数。然后，我们考虑塑造其行为的上下文，研究其遵循的指令以及用于保持信息并适应的长期记忆的进化。在这一内部基础之上，我们转向智能体的外部能力，分析它如何通过自主创建、掌握和管理新技能来进化其工具集，以克服其固有的局限性。最后，我们将视角扩展到智能体系统本身，研究如何动态优化智能体系统的架构和协作结构，以提升整体性能和效率。我们在表2中展示了这些进化维度的一个子集。

When to Evolve

基于大语言模型（LLM）的智能体的自进化在时间维度上，主要关注学习过程与任务执行之间的关系。因此，自进化智能体的第二个关键方面是确定进化的时机，即在哪个阶段调用并应用自进化策略到智能体系统上。为此，我们提出一个分类体系，区分两种时间模式的自进化：测试时内自进化 （Intra-test-time self-evolution）和测试时外自进化（Inter-test-time self-evolution）。

测试时内自进化指的是在任务执行期间发生的适应性过程。在此模式下，智能体在面对特定问题时识别出自身的局限性，并启动有针对性的学习机制，以实时增强其能力。这种进化模式的特点是与当前任务紧密耦合：智能体针对所遇到的具体问题提升其解决问题的能力，从而在性能与适应性之间形成一种动态的相互作用。

测试时外自进化 指的是在任务完成之间发生的学习过程，它利用积累的经验来提升未来的表现。这一类别涵盖了多种方法论途径：通过迭代精炼从预先收集的数据集中提取知识的离线学习范式 ，以及基于流式交互数据持续适应的在线学习范式。

在这些不同时间阶段实现自进化，依赖于大语言模型中的三种基本学习范式：

上下文学习（In-context learning, ICL）：通过上下文中的示例来调整行为，而无需修改模型参数。
监督微调（Supervised fine-tuning, SFT）：在标注数据上通过基于梯度的优化来更新模型权重。
强化学习（Reinforcement learning, RL）：通过基于奖励的策略优化来塑造行为。

尽管这些学习范式在不同的时间背景下概念上保持一致，但它们在数据可用性和学习目标方面存在差异：

测试时内自进化 的特点是其在线性（online nature）：学习数据在任务执行过程中动态产生，优化目标直接针对提升当前问题实例的性能。这种实时耦合要求具备能够处理学习数据和反馈信号，并在主动解决问题的时间限制内修改行为的快速适应机制。
相比之下，测试时外自进化 的特点是其回顾性 （retrospective nature）：学习算法作用于历史数据（无论是来自精心策划的数据集还是积累的行为轨迹），其优化目标旨在提高在任务分布上的预期性能，而非最大化某个特定问题实例的成功率。这种时间上的解耦使得更复杂的学习程序 （learning procedures）成为可能，这些程序能够识别跨任务的模式、整合多样化的经验，并发展出可泛化的能力（capabilities），而不受主动执行任务时紧迫性的限制。
How to Evolve

追求自进化是构建先进、自主且日益通用的人工智能的核心。对于大语言模型（LLMs）及其智能体扩展而言，如何持续、自主且高效地进化其能力已成为一个核心挑战。因此，第三个关键方面是如何实现进化。

与在静态数据集上训练或一次性监督微调不同，自进化强调一个持续的过程：模型从真实世界的交互中学习，主动寻求反馈，进行自我反思，生成或整理新数据，并根据动态环境调整其策略。这种持续的进化不仅仅是扩大数据或计算规模的问题；它要求智能体获得一系列元能力，包括自我纠错、自主数据生成、知识迁移和多智能体协作。因此，自进化的格局变得越来越丰富和多面化，每个方法论分支都在探索不同的反馈轴、学习范式、数据源和进化尺度。

本章旨在系统地梳理和分析主要的自进化方法家族，为理解其原理、机制和相互作用提供一个统一的框架。我们首先从基于奖励的进化 开始，该方法的核心在于设计奖励信号------从自然语言反馈和内部置信度指标到外部或隐式信号------以指导迭代的自我改进。接着，我们探讨模仿与示范学习 ，即智能体通过学习高质量的范例（无论是自我生成的，还是由其他智能体或外部来源提供的）来提升自身能力。当示范丰富或能够自主合成时，这一范式尤其强大，并已在推理和多模态领域推动了显著进展。最后，我们介绍基于群体和进化的方法 ，这些方法借鉴了生物进化和集体智能的灵感。这些方法维护着智能体变体或协作智能体的群体，利用选择、变异、交叉和竞争等机制并行探索解空间，促进多样性，并催生出新颖的策略或架构创新。

Where to Evolve?

自进化智能体已在众多领域和应用中推动了显著进步。总体而言，这些应用可以系统地分为两大类：（1）通用领域进化 （general domain evolution），即智能体系统通过进化以扩展其在各种任务中的能力，这些任务大多处于数字领域；以及（2）专用领域进化 （specialized domain evolution），即智能体专门针对特定任务领域进化，以提升其在该领域的专业能力。本质上，通用型智能助手的进化侧重于将学习到的经验迁移到更广泛的任务集上，而专用智能体的进化则侧重于在特定领域内深化其专业知识。

Evaluation of Self-evolving Agents

评估自进化智能体带来了一系列独特的挑战，这些挑战超出了对静态人工智能系统的传统评估范畴。与通常在固定任务集上于单一时间点进行评估的传统智能体不同，自进化智能体旨在通过与动态环境的持续交互来不断学习、适应和改进。因此，对它们的评估不仅需要捕捉即时的任务成功率，还必须涵盖其他关键方面，例如随时间推移的适应能力、知识的积累与保留、长期泛化能力，以及将在顺序或全新任务中习得的技能进行迁移的能力，同时还要减轻灾难性遗忘的影响。这就要求我们必须从根本上从传统的"一次性"评估模式，转向对其成长轨迹的纵向审视。

未来方向

个性化人工智能智能体

随着对自进化智能体兴趣的日益增长，部署个性化智能体已成为研究界一项至关重要且日益重要的目标。例如，在聊天机器人、数字孪生和情感支持对话等应用中，一个关键挑战是使人工智能智能体能够准确捕捉并适应用户在长期互动中的独特行为模式或偏好。现有的个性化智能体通常严重依赖于标注数据和后训练方法。最近，WIN-GPT利用电子健康记录创建患者的数字孪生体，从而提高了临床试验结果预测的准确性。然而，这些现有策略都基于一个关键假设，即大语言模型能够持续获得高质量、大规模的用户数据。在实际部署场景中，主要挑战仍然是冷启动问题：即使初始数据有限，智能体也需要逐步完善其个性化理解，准确解读用户意图，并有效构建用户画像。此外，在个性化规划与执行方面仍存在重大挑战，例如有效的长期记忆管理、外部工具集成以及个性化生成（确保输出始终与个人用户的事实和偏好保持一致）。更重要的是，必须确保自进化智能体不会无意中强化或加剧现有的偏见和刻板印象，这凸显了未来研究的另一个关键方向。

随着个性化数据的整合，用于评估个性化自进化智能体的指标应超越内在评估（例如，使用ROUGE 和BLEU 等指标直接评估个性化生成文本的质量）或外在评估（例如，通过推荐系统、分类任务和其他特定应用间接评估个性化效果）。传统的个性化评估指标往往无法充分捕捉自进化智能体固有的动态进化特性。因此，未来的研究呼吁开发更轻量级、更具适应性的评估指标。此外，为了更好地评估自进化个性化智能体，显然需要灵活、动态的基准测试，能够准确评估智能体的性能，特别是在其自进化过程中管理长尾个性化数据方面。

泛化能力

自进化智能体在实现跨不同任务领域和环境的强健泛化方面也面临着相当大的挑战。专业化 与广泛适应性之间的根本性矛盾，仍然是该领域最紧迫的挑战之一，对可扩展性、知识迁移和协同智能有着重大影响。

可扩展的架构设计 ：开发可泛化的自进化智能体，其核心挑战在于设计出可扩展的架构，使其在复杂性和范围增加时仍能保持性能。当前的智能体系统经常面临专业化与泛化之间的权衡，即为特定任务优化的智能体在面对新环境时，难以将其学到的行为进行迁移。此外，基于大语言模型（LLM）的智能体在进行动态推理时，其计算成本会随着适应机制复杂性的增加而非线性地增长，这在现实的资源限制下，对可实现的泛化能力构成了实际约束。近期研究表明，配备反思能力 和记忆增强功能的自进化智能体在提升泛化能力方面展现出巨大潜力，尤其是在小型、资源受限的模型中。然而，这些方法在应对需要长期持续适应的复杂现实场景时，仍然存在局限性。

跨领域适应 ：实现跨领域的泛化是自进化智能体面临的一个关键前沿。当前的方法通常依赖于特定领域的微调，这限制了智能体在不进行重新训练的情况下适应新环境的能力。近期在测试时扩展 （test-time scaling）和推理时适应（inference-time adaptation）方面的进展，为增强跨领域泛化提供了有前景的途径。这些技术允许智能体通过在推理过程中动态分配额外的计算资源，来应对不熟悉的场景，从而避免了增加模型参数的需要。此外，元学习（meta-learning）策略在促进向新领域的快速少样本（few-shot）适应方面也表现出相当大的潜力。然而，这些方法的有效性在很大程度上取决于智能体准确判断何时需要额外计算资源，并高效地将这些资源分配到不同推理任务上的能力。

持续学习与灾难性遗忘 ：自进化智能体必须在不断适应新任务的同时，保留先前获得的知识，而LLM固有的灾难性遗忘（catastrophic forgetting）现象使这一挑战更加严峻。在基于基础模型的智能体中，稳定性与可塑性之间的两难困境尤为突出，因为为每个新任务重新训练的计算成本过高，难以承受。近期研究探索了参数高效微调方法、选择性记忆机制和增量学习策略，以在保持适应性的同时减轻灾难性遗忘。尽管如此，如何在效率和防止模型漂移之间取得最佳平衡，仍然是一个重大的开放性挑战，尤其是在智能体在资源受限或处理具有严格隐私要求的流数据时。

知识可迁移性：近期研究发现了人工智能智能体在知识迁移方面的关键局限性。这些工作指明了几个重要的未来研究方向：1）有必要更好地理解一个智能体所获得的知识在何种条件下可以被可靠地泛化并传递给其他智能体；2）开发量化智能体知识迁移能力局限性的方法，可以更清晰地揭示智能体协作中的瓶颈；3）需要建立明确的机制来鼓励形成稳健、可泛化的世界模型，这可以显著提高自进化智能体的协作效能。

安全与可控的智能体

随着自主人工智能智能体在学习、进化和独立执行复杂任务方面的能力日益增强，越来越多的基于智能体的研究正在将重点转向部署更安全、更可控的智能体。这些安全问题主要源于用户相关风险 （例如，模糊或误导性的指令导致智能体执行有害操作）以及环境风险（例如，接触到恶意内容，如网络钓鱼网站链接）。

许多研究旨在解决智能体自动适应带来的安全问题。例如，TrustAgent 实施了事前规划、事中规划和事后规划策略，以促进更安全的智能体行为。此外当目标涉及欺骗性或不道德的方法时，管理智能体的行为会带来进一步的困难，因为持续学习的不确定性加剧了可控智能体部署过程中的这些安全挑战。这种不确定性同样体现在模糊的上下文和设计不佳的记忆模块中。因此，部署一个可靠、可控且安全的自进化系统已成为一个关键问题。

未来的研究应着重于收集更大规模、更多样化的现实场景数据，以支持对安全行为的全面学习。进一步完善"智能体宪法"（Agent Constitution），通过制定更清晰、更易理解的规则和案例库，这一点至关重要。此外，探索更安全的训练算法，并深入研究隐私保护措施对智能体效率的影响，是实现自主人工智能智能体更平衡、更安全部署的必要步骤。

多智能体生态系统

多智能体自进化系统面临着若干独特的挑战，需要进一步探索。

平衡个体与集体推理：近期研究凸显了在多智能体环境中平衡独立推理与有效群体决策的困难。尽管集体讨论可以显著增强诊断推理能力，但智能体往往存在过度依赖群体共识的风险，从而削弱其独立推理能力。为缓解这一问题，未来的研究应探索能够动态调整个体与集体输入相对权重的机制。这种方法有助于防止决策被单个或少数几个智能体主导，最终促进稳健、平衡的共识构建与创新。此外，开发明确的知识库和标准化的更新方法论------利用智能体的成功与失败经验------可以进一步提升智能体的自进化能力，并加强其在协作环境中的个体推理贡献。

高效的框架与动态评估 ：另一项关键挑战在于开发高效的算法和自适应框架，使智能体能够在协作的同时，保持其个体决策的优势。解决这一问题需要新的框架，这些框架必须明确地整合持续学习和自适应协作机制。此外，现有的多智能体评估基准大多是静态的，因此无法捕捉智能体角色的长期适应性和持续进化。未来的基准应纳入动态评估方法，以反映持续的适应、不断演变的交互以及多智能体系统内的多样化贡献，从而为自进化智能体提供更全面的评估指标。

结论

自进化智能体的出现标志着人工智能领域的一次范式转变，它推动了人工智能从静态、单一的模型向能够持续学习和适应的动态智能体系统演进。随着语言智能体越来越多地被部署在开放、互动的环境中，智能体必须具备进化能力，能够根据新任务、新知识和反馈来调整其推理过程、工具和行为，这对于构建下一代智能体系统至关重要。在本综述中，我们首次对自进化智能体进行了全面而系统的回顾，围绕三个基础性问题展开：智能体的哪些方面应该进化、进化应在何时发生，以及如何有效地实施进化过程。此外，我们还讨论了多种评估自进化智能体进展的方法，包括衡量指标和基准测试，并介绍了相应的应用和未来研究方向。展望未来，充分发挥自进化智能体的潜力对于奠定人工超级智能（ASI）的基础至关重要。这些智能体的进化将需要在模型、数据、算法和评估实践等方面取得重大进展。解决灾难性遗忘、在自主进化过程中实现与人类偏好的对齐，以及智能体与环境的协同进化等问题，将是解锁不仅具备适应性，而且值得信赖且符合人类价值观的智能体的关键。我们希望本综述能为研究人员和从业者提供一个基础性框架，以设计、分析和推进自进化智能体的开发与进步。

#DriveAgent-R1

告别被动感知！主动视觉探索的混合思维高级Agent

DriveAgent-R1 是一款为解决长时程、高层级行为决策挑战而设计的先进自动驾驶智能体。当前VLM在自动驾驶领域的潜力，因其短视的决策模式和被动的感知方式而受到限制，尤其在复杂环境中可靠性不足。

为应对这些挑战，DriveAgent-R1 引入了两大核心创新：

混合思维 (Hybrid-Thinking) 框架：智能体能够根据场景复杂度，智能地在高效的纯文本推理和深入的工具辅助推理之间自适应切换。
主动感知 (Active Perception) 机制：配备了强大的视觉工具箱，使智能体能够主动探查环境以解决感知不确定性，从而提高决策的可解释性、透明度与可靠性。

我们设计了一种新颖的三阶段渐进式强化学习策略，创新提出模式分组GRPO(MP-GRPO)，强化DriveAgent-R1的双模式特异性能力，为后续智能体的自由探索奠定基础。大量实验证明，DriveAgent-R1 取得了当前最佳性能（SOTA），甚至超越了如 Claude Sonnet 4 等顶尖的多模态大模型。消融实验充分验证了我们训练方法的有效性，并证实了智能体的决策是基于主动感知的视觉驱动，推动了更安全、更智能的自动驾驶。

关键词: 自动驾驶、Agent、视觉语言模型 (VLM)、混合思维、多模态思维链 (M-CoT)、强化学习

论文链接：https://arxiv.org/abs/2507.20879****

研究动机与核心挑战

让自动驾驶智能体像人类一样主动"观察"与"思考"

人类驾驶员在面对复杂或不确定的路况时，其行为远非简单的"看到-反应"模式。我们的决策过程是一个主动的、探索性的过程。例如：

在夜间或恶劣天气下行驶时，我们会更加专注地观察，试图从模糊的视野中辨认远处的路标、信号灯或潜在障碍物。
准备在繁忙路口右转时，我们不会只依赖主视野，而是会主动、反复地查看右后视镜和侧窗，确保盲区安全，并预测其他车辆的动向。
遇到前方有施工或事故警示牌时，我们会放慢速度，主动寻找绕行路线或观察交警的指挥手势。

这种"主动寻求信息以消除不确定性"的能力，是人类驾驶员安全、可靠行驶的关键。然而，当前的自动驾驶VLM在很大程度上缺乏这种能力。它们主要面临两大核心挑战：

决策短视 (Myopic Decision-Making): 现有方法（如AlphaDrive）大多专注于单步的动作预测，缺乏对未来数秒内的连贯、长时程规划能力。这就像一个驾驶员只考虑下一秒踩油门还是刹车，而没有一个完整的"通过路口"的计划。
感知被动 (Passive Perception): 模型通常被动地接收固定的、低维度的文本指令（如速度、导航）和高维度的视觉信息。在规划任务中，模型很容易忽视丰富的视觉细节，形成"视觉忽略" (visual neglect)。它们无法像人类一样，在感觉"看不清"或"不确定"时，主动地去"再看一眼"或"凑近点看" 。

因此，我们的核心任务是：赋能智能体进行长时程、高层级的行为决策，同时，当面临不确定性时，能像人类驾驶员一样主动地从环境中寻求关键信息。

上图生动展示了DriveAgent-R1在面对不同场景的两种思考过程。在一个视线较为清晰的公路上行驶时，DriveAgent-R1准确判断初始输入已经提供了充足的视觉信息，并采用<think_text>模式依赖纯文本做出最终决策。而在一个光线条件较差，充满不确定的乡村夜间道路中，智能体主动调用了"3D Object Detection"和"RoI Inspection"工具，以获取前方道路碎石块和限速标志的关键视觉信息，从而做出了更安全、更有依据的减速决策。

核心创新点

业界首个基于强化学习的智能思维架构：我们首次在自动驾驶智能体中实现并提出了混合思维架构。DriveAgent-R1能够根据驾驶场景的复杂度，在高效的纯文本多模态思维链 Text-based M-CoT和基于视觉工具辅助多模态思维链 Tool-based M-CoT之间自适应切换，从而智能地适应不同的驾驶场景。
引入主动感知概念：我们将"主动感知"的概念引入到基于VLM的自动驾驶中，为智能体配备了一个强大的视觉工具箱，使其能够在不确定的环境中主动探索，显著增强其感知鲁棒性。
完整的三阶段渐进式训练策略：我们设计了一套完整的、以强化学习为核心的三阶段渐进式训练策略，并建立了一套全面的评估体系，用以评估模型的预测准确性、推理质量和自适应模式选择能力。
在挑战性数据集上取得SOTA性能 ：在极具挑战性的SUP-AD数据集上，我们的方法取得了SOTA性能，甚至超越了如Claude 4 Sonnet，Gemini2.5 Flash 等前沿多模态大模型。

方法详解

总体架构

DriveAgent-R1基于轻量级的Qwen2.5-VL-3B模型构建。其主要任务是基于多模态上下文信息（6个环视摄像头的低分辨率图像、当前车速和导航指令），生成一个安全合理的未来8秒长时程驾驶意图决策。这个决策由4个时间步（每步2秒）的离散元动作序列A=(a1, a2, a3, a4)组成，每个元动作包含速度（加速、保持、减速、停止）和轨迹（直行、右转、左转）两个部分。

混合思维 (Hybrid-Thinking) 过程

DriveAgent-R1在正式推理之前，首先根据初始多模态输入判断，当前视觉信息是否充足，基于此做出思考模式的选择,以<think_text>或<think_tools>作为特殊token标识启用思考模式。

文本M-CoT模式 (): 在简单的常规场景中，模型会生成<think_text>激活此模式。它完全依赖初始输入和内部知识进行纯文本推理，优点是计算效率高，适用于信息充足的场景。
工具M-CoT模式 (): 在复杂或不确定的场景中，模型会生成<think_tool>激活此模式。它会主动调用外部视觉工具来主动获取多的补充信息，以一种交错、多模态的方式(inter-leaved)丰富其组织思考过程。工具的调用和返回信息可以由智能体根据自身需要任意嵌入到思考过程的任何阶段。

无论选择哪种模式，智能体的思考过程都遵循一个统一的、结构化的三阶段思维链：

**描述 (description) → 推理 (reasoning) → 预测 (prediction)**

主动感知与视觉工具箱 (Active Perception & Vision Toolkit)

为了实现主动感知，我们为DriveAgent-R1集成了一个强大的视觉工具箱。

获取高分辨率视图 (Retrieve High-Resolution View): 允许智能体按需请求任一特定视角的高分辨率图像。更重要的是，它包含了一个历史记忆池，缓存了过去5秒所有视角的图像，使模型能回溯历史帧以评估交通灯变化或动态物体趋势，避免了处理完整视频序列带来的高昂计算成本。
关键区域检查 (RoI Inspection): 赋予智能体"放大看"的能力，智能体可以根据需要通过提供坐标框来主动检查特定感兴趣区域。这对于确认关键细节信息比如远处交通灯状态或路牌文字至关重要。
深度估计 (Depth Estimation): 利用SOTA的单目深度估计算法（Depth Anything V2，NeurIPS 2024）生成深度图，帮助模型直观地掌握物体的相对距离和空间布局。
3D物体检测 (3D Object Detection): 集成了一个先进的开放词汇表单目3D物体检测工具（DetAny3D，ICCV2025）。它不仅能检测常规物体，其"开放词汇表"的特性还允许模型根据当前场景需要动态指定新的检测对象，展现出极高的灵活性。

三阶段渐进式训练策略

我们设计了一套"基础构建 → 模式强化 → 自主决策"的渐进式策略来培养智能体的混合思维能力。

第一阶段：双模式监督微调 (DM-SFT)

目标：让模型对两种思维模式的格式和语义边界有一个基础的理解。
数据构建：我们设计了一个自动化的数据构建流水线，1）首先通过一个"工具调用必要性评估"步骤将原始数据划分为工具必需集和工具非必需集。2）然后使用强大的72B"教师模型"为数据进行逆向推理式CoT标注，）最后通过规则进行清洗，构建高质量的冷启动SFT数据集。

第二阶段：强制对比模式强化学习(FCM-RL)

目标：强化并加深智能体在不同思维模式下的独立思考能力，避免对某种模式产生偏见。
方法：我们提出了模式分区GRPO (MP-GRPO)算法。对每个输入，我们强制智能体生成两种模式的响应组，从而创造出一种多维度的对比学习信号（模式内对比和模式间对比），为最终的自适应选择奠定基础。
奖励设计：奖励由准确性奖励 () 和格式一致性奖励()组成。

第三阶段：自适应模式选择强化学习 (AMS-RL)
目标：训练智能体根据上下文自主选择最优的思维模式，实现真正的混合思维。
方法：我们移除了模式强制约束，采用原生的GRPO算法。智能体必须自主选择合适的思维方式。
奖励设计：在第二阶段的奖励基础上，增加了一个条件性的工具使用奖励 () 。该奖励基于课程学习，设计了一个动态奖励窗口，在训练初期鼓励探索工具的使用，在后期则要求高精度的、有影响力的工具使用

实验部分

实验设置

数据集：所有实验均在关注长尾和挑战性场景的SUP-AD数据集上进行。我们构建了5K高质量样本用于SFT，剩余数据用于RL训练。评估数据共1500条。
评估指标：

准确性 (Accuracy): 计算首帧和序列平均的联合准确率，并引入了允许保守预测的"宽松速度匹配"机制。
整体评估分数 (H-Score): 使用SOTA大模型（Gemni 2.5 pro）作为评估器，从安全性、舒适性和准确性三个维度对推理过程和预测结果进行综合打分。
模式选择准确率 (MSA): 用于量化智能体动态选择正确思维模式的能力。

实现细节：
基础模型： Qwen2.5-VL-3B 。
硬件： 8卡 H20 GPU。
训练参数： SFT阶段学习率为2.0e-5，batch size=256。RL阶段采用GRPO框架，reponse group=4，其中第二阶段的MP-GRPO算法中每个模式分组的response group=2。

主要结果

工具使用能增强SOTA VLMs的能力：实验发现，为SOTA VLMs（如Claude Sonnet 4）提供视觉工具箱后，其决策能力普遍得到提升，例如联合准确率提升25.0%，推理质量提升26.1%，证明了主动获取视觉信息是VLM驾驶智能体的一个有前景的方向。
视觉工具是一把"双刃剑"：如果没有经过专门训练，直接给模型提供工具会导致性能崩溃。我们的基线模型在获得工具权限后，联合准确率暴跌42.1% 。这表明，只有当智能体被明确训练如何利用工具时，工具才能成为资产，否则会引入不确定性，成为一种负担。
DriveAgent-R1：成功将"干扰"变为"放大器"：与基线模型形成鲜明对比的是，经过我们渐进式训练策略的DriveAgent-R1，在启用工具后所有指标均获得显著提升，例如序列平均准确率提升15.9%。这有力地证明了我们的训练策略至关重要，它成功地将工具从潜在的干扰源转化为了强大的性能放大器。

消融实验

渐进式训练策略的有效性：

RL是性能的关键：所有经过RL训练的变体都显著优于仅进行SFT的基线模型，证明了RL对于释放智能体潜力至关重要。
FCM-RL强化执行，AMS-RL磨练选择：实验清晰地揭示了两个RL阶段的分工。第二阶段（FCM-RL）对于强化单模式的执行能力至关重要，而第三阶段（AMS-RL）对于教会智能体何时使用这些能力（即模式选择）至关重要。
完整的渐进式策略达到最优性能：完整的三阶段策略使DriveAgent-R1在所有指标上都达到了最佳性能，实现了单模式执行能力和模式选择智能的协同提升。

2.主动感知放大了对视觉的依赖：

DriveAgent-R1是真正的视觉驱动：在推理时移除所有图像输入，DriveAgent-R1的性能出现了灾难性下降（首帧准确率暴跌43.1%），这有力地证实了它的决策是真正由其所见驱动的，而不是利用了文本捷径。
主动感知是深度视觉依赖的关键 ：一个未经工具训练的对照组在移除视觉信息后，性能下降幅度远小于DriveAgent-R1（23.7% vs 43.1%）。这表明，正是我们的主动感知机制，培养了模型对视觉现实深刻而有意义的依赖，使其决策更加鲁棒和有据可依。

结论

我们提出了DriveAgent-R1，一个通过主动感知机制 和混合思维框架解决长时程、高层级行为决策挑战的先进自动驾驶智能体。通过创新的三阶段渐进式RL训练策略，DriveAgent-R1以轻量级模型的体量实现了SOTA性能。它通过像人类驾驶员一样思考和主动感知，有效提升了决策的可解释性，操作的安全性。

#Qcnet->SmartRefine->Donut

Argoverse v2上SOTA的进化之路~

笔者这段时间阅读了来自ICCV2025的论文DONUT: A Decoder-Only Model for Trajectory Prediction

这篇论文以qcnet为baseline，基于decoder-only架构配合overprediction策略，在argoversev2上取得了SOTA

联想到之前笔者所阅读的论文SmartRefine，该论文也是基于Qcnet的基础上对refine部分进行改进，也在argoverse v2上取得了SOTA；

因此，本着学习的态度，笔者想在此简单总结这三篇论文；

Query-Centric Trajectory Prediction--CVPR 2023

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction--CVPR 2024

DONUT: A Decoder-Only Model for Trajectory Prediction--ICCV 2025

先看qcnet

Query-Centric Trajectory Prediction--CVPR 2023

两个关键点

笔者理解该文有两个关键点：

以查询为中心的场景编码范式

这种场景编码范式使得模型学习的表示是独立于全局时空坐标系的，带来一个好处，可以复用过去的历史计算，无需重新规范化和重新编码输入

propose+refine两阶段轨迹解码范式

首先采用无锚query以循环方式生成轨迹proposal；然后通过refiner将proposal 轨迹作为锚点，基于锚点的query细化预测轨迹

接下来具体看这两个关键点

以查询为中心的场景编码范式

传统的场景编码方式--当前时刻的直角坐标系下状态表示

传统的编码方式是利用时间网络来压缩时间维度，然后仅仅在当前时间步执行map-agent， agent-agent的融合；这种方式没有factorized attention更好；factorized attention在每个时间步中进行特征融合，因此，因子化注意力可以捕获更多信息，例如代理和地图元素之间的关系如何在观察范围内演变。

轨迹预测是一项流式处理任务；但是传统的场景编码方式中依赖于当前时刻的局部坐标系，这导致后续时间步的推理过程中无法直接使用之前时间步计算得到的特征

以查询为中心的编码范式--每个时刻的极坐标系下的状态表示

引入一种以查询为中心的编码范式，用于学习独立于场景元素全局坐标的表示；如下图所示

具体来说，我们为每个场景元素建立一个局部时空坐标系 ，在其局部参考系中处理查询元素的特征，然后，在执行基于注意力的场景上下文融合时，我们将相对时空位置注入到键和值向量中。

换个更加容易理解的语言来阐述 ，其实就是以每个时刻的位置为极坐标的极点，heading vector的方向为极轴 表示agent自身状态，map元素，agent之间的相对状态，agent-map之间的相对状态；

具体来说就是表示agent自身位移矢量，速度矢量，map元素中点的位置及相对位置矢量，agent-agent之间相对位置矢量，以及agent-map相对位置矢量

这个地方插一嘴，为啥叫query-centric编码范式？这是由于每个时刻的状态在每个时刻的局部坐标系下表示后，经过编码，然后在注意力操作中会成为query，所以称之为query-centric的场景编码范式；换个名字叫every-timestamp local centric都行

直接看代码理解更清晰！

1. 先看怎么表示agent自身状态--位移矢量+速度矢量在极坐标系下拆分成大小和方向

下面是qcnet代码中对agent的输入状态的构成，分为位移大小，位移向量同航向向量的夹角，速度大小，速度矢量同航向向量的夹角

复制代码

x_a = torch.stack(
                [torch.norm(motion_vector_a[:, :, :2], p=2, dim=-1),        #计算位移向量的大小
                 angle_between_2d_vectors(ctr_vector=head_vector_a, nbr_vector=motion_vector_a[:, :, :2]),  #计算航向向量同位移向量之间的角度差异
                 torch.norm(vel[:, :, :2], p=2, dim=-1),                    #计算速度矢量的大小
                 angle_between_2d_vectors(ctr_vector=head_vector_a, nbr_vector=vel[:, :, :2])], dim=-1)     #航向同速度向量之间的夹角

通过一个FourierEmbedding对象self.x_a_emb进行编码

复制代码

x_a = self.x_a_emb(continuous_inputs=x_a.view(-1, x_a.size(-1)), categorical_embs=categorical_embs) #车辆历史轨迹的编码

得到傅里叶特征之后同语义特征级联

2. 再看agent-agent之间的相对状态怎么表示--相对位置矢量大小，相对位置矢量方向，相对方向以及时间差

我们为场景元素对准备相对位置嵌入，它将被合并到基于注意力的运算符中，以帮助模型了解两个元素的局部坐标系之间的差异。

用4D的描述符来总结他们的相对位置；具体来说，对于两个坐标系和

4D描述符包含，两个坐标系原点之间的距离，两个坐标系的相对方向

以及两个坐标系的方向差，时间差S-T；经过堆叠的MLP后得到fourier features，表示为

这个地方有补充，agent-agent之间的相对位置表示不仅仅是不同agent之间的，同一个agent不同时刻也可以看作是两个agent之间的相对状态，也需要按照上述方式表示并进行编码

以下是同一个agent不同时间步相对位置编码的代码

复制代码

# mask_t 是按照时间步是否存在构建的智能体到智能体之间的邻接矩阵
        mask_t = mask.unsqueeze(2) & mask.unsqueeze(1)      
        edge_index_t = dense_to_sparse(mask_t)[0]       #这一行将密集的邻接矩阵mask_t转换为稀疏格式，可能是边索引的列表。[0]表示只关注第一个输出，
        edge_index_t = edge_index_t[:, edge_index_t[1] > edge_index_t[0]]   #？？？ 这过滤掉自环边，并确保图没有无向边，只保留边(i, j)，其中j大于i。
        edge_index_t = edge_index_t[:, edge_index_t[1] - edge_index_t[0] <= self.time_span] #进一步基于时间条件过滤边，只保留表示在self.time_span时间范围内的连接的边。
        rel_pos_t = pos_t[edge_index_t[0]] - pos_t[edge_index_t[1]] # 构建车辆之间的相对位置向量
        rel_head_t = wrap_angle(head_t[edge_index_t[0]] - head_t[edge_index_t[1]])
        r_t = torch.stack(
            [torch.norm(rel_pos_t[:, :2], p=2, dim=-1),
             angle_between_2d_vectors(ctr_vector=head_vector_t[edge_index_t[1]], nbr_vector=rel_pos_t[:, :2]),  #计算车辆之间的相对位置向量与航向向量之间的夹角
             rel_head_t,                # 相对航向差异
             edge_index_t[0] - edge_index_t[1]], dim=-1)            # 时刻差异
        r_t = self.r_t_emb(continuous_inputs=r_t, categorical_embs=None)

以下是不同agent之间相对状态的编码

复制代码

edge_index_a2a = radius_graph(x=pos_s[:, :2], r=self.a2a_radius, batch=batch_s, loop=False,
                                      max_num_neighbors=300)
        edge_index_a2a = subgraph(subset=mask_s, edge_index=edge_index_a2a)[0]
        rel_pos_a2a = pos_s[edge_index_a2a[0]] - pos_s[edge_index_a2a[1]]
        rel_head_a2a = wrap_angle(head_s[edge_index_a2a[0]] - head_s[edge_index_a2a[1]])
        r_a2a = torch.stack(
            [torch.norm(rel_pos_a2a[:, :2], p=2, dim=-1),
             angle_between_2d_vectors(ctr_vector=head_vector_s[edge_index_a2a[1]], nbr_vector=rel_pos_a2a[:, :2]),
             rel_head_a2a], dim=-1)
        r_a2a = self.r_a2a_emb(continuous_inputs=r_a2a, categorical_embs=None)

3. 再看如何表示map元素中的点及相对位置矢量--地图元素在polygon级别表示为第一个点+第一个点的方向，在点级别表示为相邻点矢量大小+矢量方向

qcent中对map元素的处理分为点级别和polygon级别（类似于vectornet，这个polygon级别可以理解为就是一个实例级别，可能是一个lane_segment，也可能是一个cross_walk）

对于polygon级别：取每个polygon第一个点的位置及方向

复制代码

lane_segment_idx = polygon_ids.index(lane_segment.id)
            centerline = torch.from_numpy(centerlines[lane_segment.id].xyz).float() #获得指定lane_segment的中心线坐标的numpy矩阵，维度为[n 3]
            polygon_position[lane_segment_idx] = centerline[0, :self.dim]
            polygon_orientation[lane_segment_idx] = torch.atan2(centerline[1, 1] - centerline[0, 1],            #按照两个centerlines上的点的坐标计算方向，得到夹角
                                                                centerline[1, 0] - centerline[0, 0])    
            polygon_height[lane_segment_idx] = centerline[1, 2] - centerline[0, 2]
            polygon_type[lane_segment_idx] = self._polygon_types.index(lane_segment.lane_type.value)    #lane_type 指示哪些车辆类型可以使用此类车道
            polygon_is_intersection[lane_segment_idx] = self._polygon_is_intersections.index(
                lane_segment.is_intersection)

就是取lane_segment中的中心线中第一个点的坐标及方向，cross_walk中起始位置和方向作为polygon的位置及方向

对于点级别：取相邻点构成的矢量和方向

map元素中点的位置表示倒是很简单，取的是相邻点坐标构成的矢量，这段代码在数据集预处理argoversev2Dataset中

复制代码

left_boundary = torch.from_numpy(lane_segment.left_lane_boundary.xyz).float()
            right_boundary = torch.from_numpy(lane_segment.right_lane_boundary.xyz).float()
            point_position[lane_segment_idx] = torch.cat([left_boundary[:-1, :self.dim],            #获得指定lane_segment的左边界、右边界和中心线的坐标，截止到倒数第二个点
                                                          right_boundary[:-1, :self.dim],
                                                          centerline[:-1, :self.dim]], dim=0)       #此lane_segment的所有点的位置信息
            left_vectors = left_boundary[1:] - left_boundary[:-1]           #left_boundary是从何而来
            right_vectors = right_boundary[1:] - right_boundary[:-1]
            center_vectors = centerline[1:] - centerline[:-1]
            point_orientation[lane_segment_idx] = torch.cat([torch.atan2(left_vectors[:, 1], left_vectors[:, 0]),
                                                             torch.atan2(right_vectors[:, 1], right_vectors[:, 0]),
                                                             torch.atan2(center_vectors[:, 1], center_vectors[:, 0])],
                                                            dim=0)
            point_magnitude[lane_segment_idx] = torch.norm(torch.cat([left_vectors[:, :2],
                                                                      right_vectors[:, :2],
                                                                      center_vectors[:, :2]], dim=0), p=2, dim=-1)      #计算lane_segment中每个点到点之间向量的长度
            point_height[lane_segment_idx] = torch.cat([left_vectors[:, 2], right_vectors[:, 2], center_vectors[:, 2]],
                                                       dim=0)

上述代码列举了lane_segment中点的状态处理，point_magnitude就是矢量的长度，point_orientation是矢量的方向

写至此处，其实已经将qcnet中对于地图元素如何表示的部分阐述完毕了；但是仅仅依赖上述内容还不便于理解；下面再看下map encoder如何处理

总体思路类似于vectornet，现在polygon内部聚合特征（同一个polygon的点之间），然后是polygon之间聚合特征（polygon之间交互）

具体代码如下，位于qcnet中的QCNetMapEncoder对象的forward中；

复制代码

#调用contiguous产生一个新的tensor，其数据在内存中是连续的
        pos_pt = data['map_point']['position'][:, :self.input_dim].contiguous()     #map_point position中存放了当前地图中所有lane_segments和cross_walks的点的坐标
        orient_pt = data['map_point']['orientation'].contiguous()                   #存放地图中所有点的方向，角度
        pos_pl = data['map_polygon']['position'][:, :self.input_dim].contiguous()   #存放地图中所有的lane_segments中心线的第一个点的坐标以及cross_walks的中心线的两个点的坐标
        orient_pl = data['map_polygon']['orientation'].contiguous()                 #存放地图中中心线中的第一个点的方向
        orient_vector_pl = torch.stack([orient_pl.cos(), orient_pl.sin()], dim=-1)  #地图中的lane_segments和cross_walks的中心线的第一个点的方向向量

        if self.dataset == 'argoverse_v2':
            if self.input_dim == 2:
                x_pt = data['map_point']['magnitude'].unsqueeze(-1)     #data['map_point']['magnitude']存放的是点到点之间的长度
                x_pl = None
            elif self.input_dim == 3:
                x_pt = torch.stack([data['map_point']['magnitude'], data['map_point']['height']], dim=-1)
                x_pl = data['map_polygon']['height'].unsqueeze(-1)
            else:
                raise ValueError('{} is not a valid dimension'.format(self.input_dim))
            x_pt_categorical_embs = [self.type_pt_emb(data['map_point']['type'].long()),
                                     self.side_pt_emb(data['map_point']['side'].long())]    #对点的类型和边的类型进行embedding
            x_pl_categorical_embs = [self.type_pl_emb(data['map_polygon']['type'].long()),
                                     self.int_pl_emb(data['map_polygon']['is_intersection'].long())]
        else:
            raise ValueError('{} is not a valid dataset'.format(self.dataset))
        x_pt = self.x_pt_emb(continuous_inputs=x_pt, categorical_embs=x_pt_categorical_embs)        #对点的位置和类型进行embedding
        x_pl = self.x_pl_emb(continuous_inputs=x_pl, categorical_embs=x_pl_categorical_embs)        #对边的位置和类型进行embedding

默认的input_dim为2，取polygon中点的矢量的大小，使用fourier_emb编码得到傅里叶特征x_pt

polygon内部的特征聚合代码如下，需要构造polygon内部中点点之间相对状态表示及编码

复制代码

edge_index_pt2pl = data['map_point', 'to', 'map_polygon']['edge_index'] #描述当前地图中点与多边形之间所属关系的"边索引"（edge index）
        rel_pos_pt2pl = pos_pt[edge_index_pt2pl[0]] - pos_pl[edge_index_pt2pl[1]]   #所有点的坐标减去各自所属的多边形的中心线的第一个点的坐标，产生相对位置向量
        
        # rel_orient_pt2pl每个对象中点的方向同中心线第一个点的方向之间的角度差值，此处是点的方向同中心线第一个点的方向之间的角度差值
        rel_orient_pt2pl = wrap_angle(orient_pt[edge_index_pt2pl[0]] - orient_pl[edge_index_pt2pl[1]])      #限制角度在
        if self.input_dim == 2:
            r_pt2pl = torch.stack(
                [torch.norm(rel_pos_pt2pl[:, :2], p=2, dim=-1),         #计算相对位置向量的长度，rel_pos_pt2pl存放每个点的方向
                 angle_between_2d_vectors(ctr_vector=orient_vector_pl[edge_index_pt2pl[1]], #orient_vector_pl 折线中的中心线的第一个点的方向向量
                                          nbr_vector=rel_pos_pt2pl[:, :2]),             # 折线中所有点同中心线第一个点之间形成的方向向量
                 rel_orient_pt2pl], dim=-1)             #每个点的方向同中心线第一个点的方向之间的角度差值
        elif self.input_dim == 3:
            r_pt2pl = torch.stack(
                [torch.norm(rel_pos_pt2pl[:, :2], p=2, dim=-1),
                 angle_between_2d_vectors(ctr_vector=orient_vector_pl[edge_index_pt2pl[1]],
                                          nbr_vector=rel_pos_pt2pl[:, :2]),
                 rel_pos_pt2pl[:, -1],
                 rel_orient_pt2pl], dim=-1)
        else:
            raise ValueError('{} is not a valid dimension'.format(self.input_dim))
        r_pt2pl = self.r_pt2pl_emb(continuous_inputs=r_pt2pl, categorical_embs=None)

polygon之间的自注意力依赖于polygon之间相对状态的表示及编码

复制代码

# 描述当前地图中多边形与多边形之间所属关系的"边索引"（edge index）
        # 第一行是pred/succ/nbr等多边形的id，第二行是所从属的lane_segment的id，两者构成edge_index_pl2pl
        edge_index_pl2pl = data['map_polygon', 'to', 'map_polygon']['edge_index']
        # 基于节点的距离生成图的边       
        edge_index_pl2pl_radius = radius_graph(x=pos_pl[:, :2], r=self.pl2pl_radius,            #pos_pl存放地图中所有lane_segment和cross_walk中心线的第一个点的坐标
                                               batch=data['map_polygon']['batch'] if isinstance(data, Batch) else None,
                                               loop=False, max_num_neighbors=300)
        type_pl2pl = data['map_polygon', 'to', 'map_polygon']['type']
        # edge_index_pl2pl_radius.size(1)是edge_index_pl2pl_radius的列数，表示建立的图的边的数量
        # new_zeros 被用来创建一个与这些边数目一样长的全零张量，每个元素类型设置为 torch.uint8。
        type_pl2pl_radius = type_pl2pl.new_zeros(edge_index_pl2pl_radius.size(1), dtype=torch.uint8)

        # merge_edges用于合并来自多个源的图边及其相关属性（如边类型）
        # 首先，使用 torch.cat(edge_indices, dim=1) 将所有的边索引张量沿着第一个维度（列）进行拼接，形成一个更大的张量，包含了所有的边。
        # 然后，调用 coalesce 函数（很可能是PyTorch Geometric库中的函数）。
        # coalesce 函数的作用是去重合并边。当图中存在多个连接相同节点的边时，coalesce 函数会把这些边合并为一条边，
        # 并且根据 reduce 参数指定的方法来合并它们的属性。如果 reduce 参数是 'max'，则对于每一对连接的节点，只保留具有最大属性值的那条边。
        edge_index_pl2pl, type_pl2pl = merge_edges(edge_indices=[edge_index_pl2pl_radius, edge_index_pl2pl],
                                                   edge_attrs=[type_pl2pl_radius, type_pl2pl], reduce='max')
        rel_pos_pl2pl = pos_pl[edge_index_pl2pl[0]] - pos_pl[edge_index_pl2pl[1]]       #地图中对象（lane_segment或cross_walk）与对象之间的相对位置向量
        rel_orient_pl2pl = wrap_angle(orient_pl[edge_index_pl2pl[0]] - orient_pl[edge_index_pl2pl[1]])
        if self.input_dim == 2:
            r_pl2pl = torch.stack(
                [torch.norm(rel_pos_pl2pl[:, :2], p=2, dim=-1),
                 angle_between_2d_vectors(ctr_vector=orient_vector_pl[edge_index_pl2pl[1]],
                                          nbr_vector=rel_pos_pl2pl[:, :2]),
                 rel_orient_pl2pl], dim=-1)
        elif self.input_dim == 3:
            r_pl2pl = torch.stack(
                [torch.norm(rel_pos_pl2pl[:, :2], p=2, dim=-1),
                 angle_between_2d_vectors(ctr_vector=orient_vector_pl[edge_index_pl2pl[1]],
                                          nbr_vector=rel_pos_pl2pl[:, :2]),
                 rel_pos_pl2pl[:, -1],
                 rel_orient_pl2pl], dim=-1)
        else:
            raise ValueError('{} is not a valid dimension'.format(self.input_dim))
        r_pl2pl = self.r_pl2pl_emb(continuous_inputs=r_pl2pl, categorical_embs=[self.type_pl2pl_emb(type_pl2pl.long())])

得到各个表示之后进行注意力操作

复制代码

for i in range(self.num_layers):
        x_pl = self.pt2pl_layers[i]((x_pt, x_pl), r_pt2pl, edge_index_pt2pl)
        x_pl = self.pl2pl_layers[i](x_pl, r_pl2pl, edge_index_pl2pl)
    x_pl = x_pl.repeat_interleave(repeats=self.num_historical_steps,
                                  dim=0).reshape(-1, self.num_historical_steps, self.hidden_dim)

4. 最后看agent-map之间的相对状态怎么表示

此处类似于agent-agent之间相对位置的表示及编码方式

以下是agent-map之间相对状态的表示及编码

复制代码

# pytorch_geometric的radius方法，意在创建从一组源节点x（如代表智能体位置的pos_s）到一组目标节点y（如代表地图多边形的pos_pl）的边索引edge_index_pl2a。
        # 这些边基于空间近邻原则建立，即当源节点和目标节点的距离小于或等于给定半径（r=self.pl2a_radius）时，它们之间就会建立边
        edge_index_pl2a = radius(x=pos_s[:, :2], y=pos_pl[:, :2], r=self.pl2a_radius, batch_x=batch_s, batch_y=batch_pl,
                                 max_num_neighbors=300)     
        edge_index_pl2a = edge_index_pl2a[:, mask_s[edge_index_pl2a[1]]]        #过滤到不满足在指定时间步存在的agent同pl之间的边
        rel_pos_pl2a = pos_pl[edge_index_pl2a[0]] - pos_s[edge_index_pl2a[1]]   #计算agent同pl之间的相对位置向量
        rel_orient_pl2a = wrap_angle(orient_pl[edge_index_pl2a[0]] - head_s[edge_index_pl2a[1]])
        r_pl2a = torch.stack(
            [torch.norm(rel_pos_pl2a[:, :2], p=2, dim=-1),
             angle_between_2d_vectors(ctr_vector=head_vector_s[edge_index_pl2a[1]], nbr_vector=rel_pos_pl2a[:, :2]),
             rel_orient_pl2a], dim=-1)
        r_pl2a = self.r_pl2a_emb(continuous_inputs=r_pl2a, categorical_embs=None)

encoder流程

下图是qcnet中encoder的结构图

如上图所示，编码器中需要进行temporal attn，agent-map attn以及social attn；由于特征编码时，均是在各自的local坐标系下，elements之间的相对位置关系丢失，因此在进行交叉注意力时，需要额外注入agent历史时刻之间，agent与map元素，agent与agent之间的相对位置信息，以下是代码

复制代码

for i in range(self.num_layers):
        x_a = x_a.reshape(-1, self.hidden_dim)
        x_a = self.t_attn_layers[i](x_a, r_t, edge_index_t)     #智能体历史轨迹特征提取
        x_a = x_a.reshape(-1, self.num_historical_steps,
                          self.hidden_dim).transpose(0, 1).reshape(-1, self.hidden_dim)
        x_a = self.pl2a_attn_layers[i]((map_enc['x_pl'].transpose(0, 1).reshape(-1, self.hidden_dim), x_a), r_pl2a,
                                       edge_index_pl2a)         #智能体同折线对象之间的特征提取
        x_a = self.a2a_attn_layers[i](x_a, r_a2a, edge_index_a2a)   #智能体之间社交特征提取
        x_a = x_a.reshape(self.num_historical_steps, -1, self.hidden_dim).transpose(0, 1)

propose+refine两阶段轨迹解码范式

下图是qcnet中的两阶段解码部分；

DETR范式的解码器利用多个可学习查询交叉参与场景编码并解码轨迹。然而，这些模型同其他无锚方法一样，存在训练不稳定和模式崩溃的问题

我们基于查询的解码器通过利用循环的无锚proposal模块来生成自适应轨迹锚点，然后使用基于锚点的模块进一步细化初始proposal，从而克服了这些限制。

1.先看循环的无锚propose阶段

上图展示的非常清楚，mode2scene和mode2mode重复次；mode2mode没啥好说的，就是mode query之间进行自注意力操作

mode2scene操作就是以input queries与target agent的时间维度上的嵌入，当前时刻的邻居agent的嵌入以及地图嵌入进行交叉注意力；

propose阶段有两点需要注意

第一个点，重复解码次得到最终的propose轨迹；假设预测未来6s的轨迹，取=3，也就是说每次循环生成20个点，即未来2s的轨迹；

第二个点，进行交叉注意力时需要为input queries假想一个其所处的坐标系，这个坐标系就是当前时刻agent的位置和航向构成的坐标系；

说人话就是指，由于我们需要解码出各个agent当前时刻坐标系下的未来轨迹，在进行交叉注意力时，类似于编码器中的操作，需要为key和value注入相对位置嵌入，通过各个scene elements的embedding到当前agent坐标系的相对状态产生相对位置嵌入

2.再看基于锚点的refine阶段

refine阶段的输入是propose阶段得到的proposal轨迹编码得到的anchor-based mode queries；这个编码是通过使用一个GRU来嵌入每个轨迹锚点，GRU最终的隐藏状态作为新的模式查询。

输送至refine模块中，refinement module预测偏差offset。此偏差是基于无锚估计得到的锚点/航路点

再看SmartRefine

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction--CVPR 2024

smartrefine,顾名思义就是对qcnet中的refine部分进行了改进；下图是samrtrefine的结构图

改进的点主要有以下几点

第一点，自适应anchor选择及上下文范围获取 Adaptive anchor/context selection

对于Anchor的选择

传统的refine中的锚轨迹是选取一整条proposal轨迹，这样计算量大；

因此选择将未来轨迹点进行切分，划分成一段一段的，每一段的终点作为锚点

对于上下文的获取

选择锚点周围固定半径或矩形来提取上下文的策略是次优的，针对这种情况，引入以下上下文信息动态获取范围的机制

一个anchor获取上下文的范围取决于两点，一个是迭代次数，另外一个是target agent在anchor处的速度；因此引入一个自适应检索策略，每个锚的检索范围R取决于细化迭代次数和agent在锚点anchor周围的平均速度

motivation：相较于早期迭代，细粒度的上下文信息只用在后期的细化迭代中；早期细化迭代中不需要细粒度的上下文信息；速度越快，越需要更大范围的上下文

范围公式为，是任何随着迭代次数单调递减的函数即可，本文取，其中是一个常数；

废话不多说总结此机制到底是干什么的

首先smartrefine一文中对refine过程的轨迹也进行分段的细化，类似于qcnet中的propose阶段的分阶段；同时，smartrefine中每次分段refine的时候，其各个锚点获取的上下文的范围是动态变化的，随着迭代次数的变化以及anchor附近agent速度而变化

第二点，anchor为中心的上下文编码 Anchor-Centric Context Encoding

先说motivation

回想一下，qcnet在refine阶段的整体流程；是通过GRU将proposal轨迹编码成新的mode queries；然后再走一遍mode2scene以及mode2mode

smartrefine中提到，qcnet在进行mode2scene时，keys和values还是源自于当前时刻的target agent周围的context，keys和values中所注入的相对位置信息还是周围scene elements相对于当前时刻agent坐标系的；

但是本文认为refine的过程，实际是希望沿着未来轨迹去捕获上下文的

再看smartrefine怎么做的

于是乎smartrefine在refine的过程中，将周围的上下文特征转换到对应锚点坐标系下

此处再细嗦一下：

为什么要转换到对应锚点坐标系下的需求是明确的；因为希望能获取更多的场景信息；假设只使用当前时刻target agent周围的context来细化，信息还是有限的；通过上一步，已经有对应的anchor点了，取anchor附近的context信息注入到模型，肯定是有用的；在这个过程中，需要将anchor周围的context信息转换到对应的锚点坐标系下，此处所说的转移，应该也是通过相对位置信息注入的形式，这个相对位置是anchor周围的context相对于anchor坐标系的

context中的地图信息好搞，但是周围agent的信息如何整？每个agent都有多个预测轨迹，难道取概率最大的轨迹编码，得到nbr agent的嵌入，再去进行处理嘛？

第三点，循环和多次迭代细化 Recurrent and Multi-Iteration Refinement

anchor-centric的上下文嵌入同轨迹特征嵌入相融合来细化轨迹

每条轨迹分为了N个片段segments，每个片段对应于一个锚anchor，细化每一条轨迹需要N次过程，完成整个N个片段的细化之后才算完成整体细化的一次迭代iteration

使用交叉注意力融合轨迹嵌入和上下文嵌入得到新的轨迹嵌入

新的轨迹嵌入用于预测轨迹段segment中waypoint的偏移

更新之后轨迹嵌入作为新的查询来优化下一个分段。在一次迭代中的N个步骤之后，整个轨迹都将被调整

第四点，自适应细化迭代次数 Adaptive Number of Refinement Iterations

细化迭代次数越多，模型表现越好；但同时带来了计算时间的增大，为了权衡两者，提出了一种自适应细化策略；

细化迭代的次数是根据当前的预测质量和剩余的潜在细化改进进行动态调整。

因此，smartrefine除了预测轨迹，轨迹对应的概率，同时还输出一个质量分数score

第i次iteration中quality score 的定义如下

其中是所有iteration中最大的预测误差；是当前第i个iteration时的预测误差，是所有iteration中最小的预测误差；上述分数的设计使得score位于0到1之间，使用绝对值-的话，不同场景差异比较大，不好

训练的时候，上面这个公式产生的各个iteration的质量分数作为gt，samrtrefine使用GRU处理所有多个trajectory features，然后再用MLP预测该iteration的分数

后续smartrefine中指定了几个策略，当满足指定的条件时，停止迭代，实现自适应refine iteration次数

最后最后，总结一下smartrefine，前面废话太多不看也行

这篇论文的出发点是简单直白的；将refine过程变得更加智能；

怎么变得智能呢？把refine变成多次多段；在每一段每一次的refine都智能

先说每段中的智能 ，论文对propose得到的轨迹进行分段，每一段进行refine，这称之为多段；

每段refine轨迹的智能体现在--自适应的context获取范围及anchor-centric的场景编码：

refine每段轨迹时，都有自适应的上下文获取范围，对应上图中红色圈圈的大小；上下文获取范围根据迭代次数以及agent在anchor附近的速度而定；同时，确定范围之后，获取的context信息都是基于anchor-centric编码的

每次refine轨迹的智能体现在--自适应的refine迭代次数

假设轨迹分成N段，完成N段的refine之后称之为一次iteration，这才是完整的一次refine；本文的模型还输出一个score，用以衡量该iteration的分数，当满足一定条件时，就不继续refine了；自适应的控制refine的次数，更加智能

最后看DONUT

DONUT: A Decoder-Only Model for Trajectory Prediction--ICCV 2025

这篇论文也是以qcnet为baseline进行改进，取得了argoverse v2上单agent轨迹预测的sota表现

论文中花了一节细细讲解了qcnet的结构，这是怕篇幅不够嘛哈哈

下图是DONUT的结构图

先说DONUT的整体结构

DONUT最核心的内容为，两个模块proposer，refiner以及一个overprediction机制；

通过上面的结构图可以看到，本文会将所有agent的轨迹划分为子轨迹时间长度的子轨迹

从先前时间步的预测子轨迹开始，proposer用来预测下一个子轨迹片段，以及下下一个子轨迹片段（这个机制称之为overprediction）

将下一个子轨迹片段调整其参考点，输入至refiner中，得到细化的offset，同原始的proposal轨迹相加得到predicted sub-traj

上述过程说的比较笼统，具体再细看proposer和refiner的结构

接着说proposer和refiner的结构及流程

先说两个模块，proposer和refiner，这两个模块的结构一样，结构图如下

proposer的输入是长度的轨迹片段；

tokenizer的过程：

输入的轨迹片段通过tokenizer进行编码，得到token；轨迹片段的状态包含位置，航向，运动向量以及速度，都是在轨迹片段端点endpoint的坐标系下的

计算每个时间步的fourier特征，将多个时间步的特征送入一个MLP中，把结果concat后送入一个MLP，结合agent type的embedding后得到；下图是tokenizer的细节

之后进行temporal attention，map-agent以及social attention，mode之间的自注意力操作，重复两次

temporal attn/map-agent attn/social attn的过程：

这个过程就类似qcnet；在进行attn时，keys和values需要注入的相对位置关系，是其他scene elements同ref point构成的坐标系之间的相对位置关系

proposer预测处一条sub-traj后，再输入进refiner前，会对该sub-traj调整参考点，将其中的状态调整到所预测的sub-traj端点所处的坐标系下；因此，在refiner中进行attn操作时，注入的相对位置信息是相对于这个新的ref point的坐标系

★

此处预测sub-traj并调整ref point和smartrefine中的操作一样，都是分阶段预测，同时调整到ref point坐标系下；

detokenizer的过程：

detokenizer用来解码轨迹，同时一个MLP输出overprediction的结果，同时输出一个logit，表示各个模式的概率

还有个问题，初始时proposer和refiner中Agent tokens from previous steps如何获取?

为了用历史tokens初始化模型，本文将历史轨迹输入至proposer以及refiner中

由于唯一的目的是为时间注意力生成历史agent令牌，我们可以放弃预测。我们在单峰设置下运行，即K=1。在历史轨迹的最后一个时间步之后，我们沿着模态维度复制令牌。从这一点来看，该模型是多模态的。

★

此处没太懂；但笔者认为此处为了在初始时获得历史步的agent token，会将来自历史轨迹的sub-traj输送至只有temporal attn，map-agent attn以及social attn的proposer和refiner，然后在mode维度重复K次；

这是不是将历史轨迹走了一遍qcnet的encoder，然后得到了历史步的agent tokens

还有个问题，初始时proposer的输入怎么来？

初始时还没有前一步预测多模态轨迹，此时怎么来？难道是历史轨迹真值复制K份嘛

refiner的结构同proposer相同

最后看下实验结果和消融实验

在非ensembling模型中，除了Demo之外，基本都能打过；和Demo互有胜负

消融实验

decoder-only的架构提升明显

#Butter

自驾2D目标检测新SOTA！超越最新YOLO Series~

在自动驾驶场景下的目标检测任务中，如何精准建模多尺度语义信息，一直是影响检测精度与部署效率的关键难题。当前主流架构（如 YOLO、DETR）在追求轻量化和速度的同时，往往牺牲了特征一致性与层次表达能力，难以同时兼顾小目标检测与复杂场景理解。

为此，本文提出了一种 兼顾检测鲁棒性与部署效率的新型检测框架 Butter。该框架在 Neck 层引入两项核心创新：

频率一致性增强模块（FAFCE）：融合高频细节增强与低频噪声抑制，提升边界分辨率；
渐进式层次特征融合网络（PHFFNet）：逐层融合语义信息，引入空间感知机制，强化多尺度特征表达。

通过上述设计，Butter 实现了对多尺度目标的结构化建模，并在 Cityscapes、KITTI 等数据集上以极低参数量超越现有 SOTA 方法的检测精度，充分展示了其在真实自动驾驶场景下的适应性与工程落地潜力。

论文链接：https://www.arxiv.org/pdf/2507.13373
代码仓库：https://github.com/Aveiro-Lin/Butter

图1. 本图对比了所提出的 Butter 模型与目前两种最主流的二维目标检测方法YOLOv12和Hyper-YOLO在Neck结构设计上的差异

动机

在自动驾驶目标检测系统中，Neck 部署结构的设计对于平衡检测精度与模型效率 至关重要。尽管当前已有多种轻量化方法被广泛应用（如 YOLO 系列），但这些方法常常在追求速度的同时，牺牲了特征表达的完整性与频率一致性，导致小目标漏检率高、边缘模糊、响应不稳定等问题，难以适应真实复杂路况。

现有 Neck 结构的常见问题主要集中在两类：

频率混叠：当前方法往往在上采样或融合阶段破坏了特征的频率结构，缺乏显式的频率建模机制，导致特征表达能力下降。
融合过程僵化：大多数 Neck 采用固定结构进行信息堆叠，无法根据不同尺度或语义层次进行动态融合，建模缺乏层次感，导致检测器感知能力受限。

为了克服上述结构性瓶颈，本文提出了一个 兼顾频率建模与多尺度融合的新型 Neck 框架 ------ Butter，通过解耦式设计实现精度与效率的统一。

核心贡献：

本文设计了一个 频率一致性增强模块（FAFCE），首次在 Neck 层引入频域滤波思想，有效增强目标边界特征，抑制背景噪声。
提出 分层融合结构 PHFFNet，通过渐进式语义聚合提升多尺度表达能力，并引入空间感知机制。
本文在 Cityscapes、KITTI和BDD100K 等多个自动驾驶数据集上进行了广泛实验，验证了所提结构在多目标检测中的优势。
方法具备良好的 通用性与部署适配性 ，适用于主流 SOTA 检测器，具备轻量化潜力，可用于高性能自动驾驶视觉系统部署。

方法简述

为了实现在复杂道路场景中的高精度目标检测与结构感知，本文提出了一个新颖的多阶段联合优化的目标检测框架Butter，其整体框架如图2所示。该模型专为自动驾驶环境中的单目图像目标检测任务设计，致力于在保证检测精度的同时，提升对遮挡物、结构边缘和语义层级的感知能力。

图 2： Butter 模型在自动驾驶目标检测中的完整工作流程

1）流程从一张尺寸为 640×640 的单目图像开始，经由 Backbone 模块中的 HGStem 提取初始特征；随后，这些特征将通过一系列轻量化 HGBlock、深度可分离卷积（DWConv）、以及卷积注意力模块（CBAM）进行进一步细化，然后送入 Neck 模块。Neck 模块由两部分组成：FAFCENet 与 PHFFNet。在 Neck 模块之后，模型在 Head 层使用四个输出头，生成包括类别标签、置信度分数和边界框等在内的最终检测结果。

2）左下角的 CBAM 模块对通道与空间注意力进行建模，引导网络关注关键特征区域。

3）右上角的分层融合模块（Hierarchical Fusion Block）通过上下文感知空间融合模块（CASF）实现多层级的特征交互。图中水平方向箭头表示特征交换，斜向箭头表示上采样与下采样过程。

(1) Backbone轻量化改进

在 Backbone 设计中，本文以 HGNetV2 为基础进行轻量化改进，构建了更适用于自动驾驶场景的主干网络。我们提出的轻量级 HGBlock 用 GhostConv 、RepConv 、DWConv 和 LightConv 等模块替代传统卷积层，从而显著减少参数量，提升推理效率。

进一步地，我们将 Stage2 至 Stage4 中原有的 LDS 模块 替换为更具代表性的 DWConv 模块 ，在保持特征表达能力的同时优化计算开销。为增强特征提取与表达能力，我们在 Stage4 阶段后引入了 SPPF 模块（Spatial Pyramid Pooling Fast） 与 CBAM 注意力模块（Convolutional Block Attention Module），用于进行多尺度语义增强与注意力引导。

这种模块引入顺序的设计，避免了低层特征提取阶段过早引入复杂运算导致的学习干扰，同时充分利用高层特征的上下文信息，对目标进行更精确的识别与定位。整体策略在 保证实时性 的同时，增强了网络在复杂驾驶环境中的多尺度感知与判别能力。

图 3：原始 HGNetV2 与轻量化 Butter 主干网络的架构对比图

(2) 频率自适应特征一致性增强（FAFCE）组件

在自动驾驶目标检测中，特征融合常因低层语义信息缺失、高层空间细节丢失，导致语义不一致与边界错位，进而影响小目标识别与边界检测。为此，Butter 引入 频率自适应特征一致性增强（FAFCE） 模块，通过 高频增强 与 低频抑制 两种机制，提升多尺度特征融合的准确性和鲁棒性。

特征融合基本形式：

传统特征融合可表示为：

其中，是 Backbone 提取的第层特征图，是层的融合特征，是带可学习参数的上采样操作。但该方式容易造成特征模糊和边界弱化。

高频增强（High-Frequency Amplifier）：

FAFCE 通过增强高频分量，提取目标边界细节，形式为：

其中为高频增强操作，为可学习的滤波器矩阵，表示逐元素乘。

低频抑制（Low-Frequency Damping）：

通过抑制不相关的低频成分，强化判别区域：

其中为低频抑制操作，是可学习参数。

FAFCE 共包含三个阶段以逐步提升融合效果：

阶段1：初步融合（Preliminary Fusion）

其中和为特征权重矩阵。

阶段2：重采样（Resampling）

为空间位置对齐函数，用于匹配高低层特征的空间结构。

阶段3：精细融合（Refined Fusion）

最终输出的融合特征会传递至 Neck 中的 PHFFNet 模块，提升边界感知和目标定位精度。

整体而言，FAFCE 通过频率增强机制，在保证轻量化的同时，显著提升了特征融合的一致性与精度，特别适用于自动驾驶等对边界与小目标敏感的任务场景。

图 4：FAFCE 组件架构

(3) 分层渐进特征融合网络（PHFFNet）组件

为了进一步提升特征层间的表达与对齐能力，Butter 模型引入了 Progressive Hierarchical Feature Fusion Network（PHFFNet） 模块，实现多层次特征的高效融合。PHFFNet 采用从低层向高层的逐级融合策略，有效缓解了非相邻层之间的语义差异，特别是在自动驾驶这类对目标边界要求较高的场景中，显著提升了检测准确性与对齐效果。

分层特征融合的数学表达：

PHFFNet 通过以下三个步骤实现逐层融合：

1. 初始融合阶段

将低层特征与进行融合，得到中间特征：

2. 中间融合阶段

将上一步结果与更高层的融合，得到：

3. 最终融合阶段

继续与融合，得到最终融合特征：

其中，、、为可学习的融合权重矩阵，用于控制不同层特征的融合强度。

空间动态权重机制（CASF）

PHFFNet 内置的 CASF（Context-Aware Spatial Fusion） 机制能动态地为不同空间位置的多层特征分配权重，从而增强模型对不同尺度与空间目标的适应性。该机制可通过如下公式表达：

其中，表示来自层的特征向量在位置的投影，是空间融合权重，且满足归一性约束：

该设计确保了每个位置上的融合结果是多层特征的平衡表达，有效抑制了特征冲突与冗余，有助于复杂场景下的目标检测表现提升。

实验结果

(1) 定量分析

本文在三个主流自动驾驶数据集上对 Butter 模型进行了全面评估，包括 KITTI 、BDD100K 和 Cityscapes，并与多个主流轻量级检测方法进行了对比。

在 KITTI 数据集上，Butter 在 mAP@50 上达到 94.4% ，比当前最优方法 TOD-YOLOv7 高出 1.2 个百分点，而计算量（GFLOPs ）仅为后者的约 1/3，展示了出色的 性能与效率平衡。

在 BDD100K 和 Cityscapes 数据集上，Butter 分别取得 53.7% 和 53.2% 的 mAP@50 ，显著优于同为轻量级的 Hyper-YOLO-S 方法，尤其在 Cityscapes 上提升达到 1.6。同时，Butter 模型的 参数量 比 Hyper-YOLO-S 减少了约 64% ，显示出更优的 部署适应性。

综上，Butter 在保持检测精度领先的同时，显著降低了 模型复杂度 ，兼顾 检测性能 、效率和 可部署性，在多个数据集上实现了最优的综合性能。

图 5： KITTI, BDD100K和Cityscapes数据集测试结果

(2) FAFCE 定性分析

为了进一步验证 FAFCE（Feature-Aware Fusion and Context Enhancement） 模块对目标检测性能的提升作用，本文对其 感受野变化 和 注意力热力图 进行了对比分析，如图 5 和图 6 所示。

在图 5 中，我们观察到：

在 未使用 FAFCE 模块 的情况下，模型的特征响应主要集中在图像中心区域，响应范围较窄，颜色变化不明显，说明模型的感受野较小，无法充分利用图像中的上下文信息。

而 引入 FAFCE 后，图像的响应区域更广泛，颜色对比明显增强，反映出模型对图像上下文和细节的关注程度显著提升。

在图 6 的热力图对比中也可以直观地看出：

未使用 FAFCE 的模型注意力较为分散，关注区域模糊，容易导致目标定位不准确；
加入 FAFCE 后，注意力更集中于关键目标及其上下文区域，显著提升了模型对关键物体的识别能力。

✅ 这一变化说明 FAFCE 模块能够有效增强模型的上下文感知能力，提升注意力机制的集中性和判别性，从而提高目标检测的准确性，特别适用于自动驾驶等需要精细理解场景的任务。

图 6：感受野中的特征响应

图 7： Butter 模型注意力热力图对比

#ReAL-AD

性能暴涨30%！港中文：类人推理的端到端算法

导读

人类在公路上驾驶车辆的时候往往会这样思考：先扫一眼整体路况------有没有学校、施工、突然滚到路中央的足球；再决定是变道还是减速；最后才打方向、踩刹车。短短几秒，人脑完成了"策略--战术--操作"三层级联推理，而今天的端到端自动驾驶却大多只会"直接吐轨迹"，既解释不了自己为什么这么做，也应付不了没见过的新场景。

为了弥补这一差距，上海科技大学 & 香港中文大学的最新工作 ReAL-AD 把「人类式思考」搬进了自动驾驶决策模型之中。它一种推理增强学习框架，基于三层人类认知模型（驾驶策略、驾驶决策和驾驶操作）来构建自动驾驶中的决策过程，并引入视觉-语言模型（VLMs）以增强环境感知和结构化推理能力。简单来说，它会让VLM担任"副驾驶"，先把画面翻译成"看到足球→可能有小孩→需减速避让"的高维策略，再细化为"保持车道、减速 20%"的战术命令，最终由分层解码器输出平滑轨迹。下面就让我们一起来看一看ReAL-AD这篇工作吧～

论文出处：ICCV 2025

论文标题：ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving

论文作者：Yuhang Lu, Jiadong Tu, Yuexin Ma, Xinge Zhu

论文链接： https://arxiv.org/abs/2507.12499

1 背景信息

图1｜端到端自动驾驶网络和人类驾驶决策逻辑对比

在基于视觉的端到端自动驾驶系统中，多视角相机图像流首先通过图像主干网络（例如 ResNet）进行处理，以提取二维视觉特征。随后，这些特征通过视图变换模块被转换为三维或鸟瞰图（Bird's Eye View, BEV）场景表示，从而捕捉场景几何信息，例如道路布局、交通参与者位置以及车道拓扑结构。基于 Transformer 的任务特定解码器使任务查询（例如交通参与者查询、地图查询）能够与场景特征进行交互，建模出与规划相关的表示。规划模块初始化一个自我查询（ego-query）嵌入，该嵌入通过交叉注意力层关注场景特征和任务查询，构建自我特征（ego-features），从而使自我车辆能够将其状态置于上下文中。最后，轨迹解码器（通常是一个多层感知机，MLP）通过从自我特征进行回归，预测未来的航点。

2 总体架构

图2｜ReAL-AD整体架构图

ReAL-AD的整体架构见上图（图2），这是一个带有VLM的类人推理增强学习框架，包含三个部分：

(1) 策略推理注入器（Strategic Reasoning Injector）：利用 VLM 生成的洞察解析复杂交通情境，形成高层驾驶策略；

(2) 战术推理整合器（Tactical Reasoning Integrator）：将策略意图进一步细化为可解释的战术选择；

(3) 分层轨迹解码器（Hierarchical Trajectory Decoder）：模拟人类"直觉---细化"的决策过程，先建立粗略运动模式，再逐步精修为详细轨迹。

下面将详细介绍这三部分的内容

3 策略推理注入器------模型的眼睛

图3｜VLM的输出结果示例

在驾驶场景中，人类司机会先通过识别关键交通参与者或相关法规来制定驾驶策略------研究人员将这一认知过程复现为由 VLM 生成的推理过程。随后，这些推理过程将被编码，用于引导 ego-query，从而开始整个规划过程。

VLM首先通过基于prompt引导的视觉推理生成驾驶策略文本：

其中代表 VLM 处理器, 代表视觉输入, 代表驾驶策略 prompt 模板。随后, 生成的策略文本通过一个预训练的语言编码器编码进入语义空间。为了弥补语义空间与视觉感知之间的差距, 研究人员还实现了一个轻量的 adaptor:

同样地, 研究人员还把真实轨迹编码进入通过轨迹编码器规划特征中, 使用余弦相似度损失来强制策略语义与规划动态保持一致:

优化后的策略特征随后通过残差更新的方式融入 :

该做法将 VLM 获得的推理能力注入 , 使其在与环境特征交互时能够有针对性地获取与规划相关的关键信息。

4 战术推理整合器------模型的大脑

虽然驾驶策略提供了语义层面的上下文，但其表述抽象（例如"让行来车"），往往缺乏可直接用于轨迹规划的可执行指令。为了弥合这一缺口，研究人员引入了战术指令，将语义策略转化为可执行的选择，从而在策略规划和战术驾驶决策与操作之间建立双层推理机制。

通过类别约束的视觉推理，让 VLM 生成结构化指令：

其中表示命令提示模板, 并强制输出遵循四大类格式：方向 (Direction)、紧急 (Emergency)、车道 (Lane) 和速度 (Speed)。原始的文本输入经过如下的程得到可执行的指令：

其中是预定义好的正则表达式匹配表达式。然后再每一条指令分别经过特定的类别编码器进行编码以及进行策略混合:

其中是可学习的编码矩阵。随后，编码后的特征按车辆控制层级进行划分

编码的是瞬时反应层的驾驶决策，而编码的则是在深思熟虑后发出的驾驶操作指令。这两条命令在后续层轨迹解码器的不同层级中各自职，从粗到细地生成人类轨迹提供详尽且精准的指令。

5 分层轨迹解码器------模型的左膀右臂

受人类驾驶认知"先瞬时反应、后深思熟虑"的分层特性启发，研究人员提出一种双层变分解码器，其潜在轨迹空间同时以驾驶决策层与驾驶操作层的控制信号为条件。

第一层解码器以自车特征与反应级战术指令（方向意图与紧急指示）为条件，通过条件变分推断建立粗略运动模式：

分布参数化：将输入映射到潜在粗粒度轨迹空间
隐空间采样: 提取全局动作模式

其中为自行车特征, 表示反应级指令特征, 粗粒度潜码用于刻画宏观运动模式。

第二层是在第一层得到的粗略运动模式基础上, 融合多源条件信息, 并将其映射为精细的轨迹表征, 实现由粗到细的运动规划。

分层细化: 以粗略运动模式和监管级指令为条件, 对潜在精细轨迹空间进行约束。
隐空间采样: 采样精细轨迹表示

其中, 表示规则层面的指令特征, 用于编码车道管理和速度控制的选择。

在通过分层变分过程获得隐空间表征和之后, 下一步是将这些隐变量解码为实际的轨迹序列。研究人员设计的轨迹解码器还对时间进行了建模, 采用了双潜胫流处理。具体过程如下:

Coarse Stream:

Fine Stream:

其中, 和分别表示粗略轨迹和精细轨迹的潜在表示; 表示未来时间步的数量, 和分别对应于粗轨迹和细轨迹的潜在特征序列; 和分别表示计划的粗轨迹和细轨迹。

6 损失函数------模型优化的目标

复合损失函数整合了五个任务目标，以实现有效的分层学习:

基准模型损失 研究人员保留了所有基准模型的损失，记为

策略推理注入损失 对于策略推理注入模块，研究人员引入了两种损失

1.: 该损失用于确保策略语义与规划动态之间的一致性，如第 3.3 节所述。

2.: 该损失用于监督 GT (Ground Truth) 轨迹编码，以确保特征表示的正确性:

其中，表示分层轨迹解码器。

分层轨迹解码器损失 为了确保有效的分层轨迹规划,研究人员为分层轨迹解码器引入了两个关键的损失函数:

: 该损失将基线目标应用于预测的粗轨迹和经过 Bézier 曲线拟合的粗轨迹真实值。
: 该损失通过两级KL散度公式, 强制要求分层潜在空间之间的一致性:

对于层级 , KL 散度的计算公式为:

随后, 整体的分层 KL 损失计算如下:

7 实验结果

实验设置

基准选择：ReAL-AD方法支持不同的端到端规划网络和 VLM。研究人员选择 VAD 和 UniAD 作为基线模型，并选用 MiniCPMLlama3-2.5V 和 Qwen-VL 作为视觉语言模型。

数据集：研究人员在 nuScenes 数据集上评估开环规划性能，该数据集包含 1000 个 20 秒的场景，采样频率为 2Hz，是端到端（E2E）自动驾驶领域的一个关键基准数据集。对于开环和闭环评估，研究人员使用 Bench2Drive数据集，它包含来自 13638 个剪辑的 200 万帧，覆盖 44 种场景、23 种天气条件和 12 个 CARLA v2 城市。其严格的闭环评估协议通过 220 条路线对端到端自动驾驶（E2E-AD）模型进行评估，确保了性能评估的公平性和全面性。

评估指标：对于开环评估，研究人员使用 L2 误差和碰撞率。L2 误差用于衡量规划轨迹与真实轨迹之间的距离，而碰撞率则用于量化与交通参与者的碰撞次数。默认情况下，研究人员使用VAD指标在 1 秒、2 秒和 3 秒时进行评估。对于闭环评估，研究人员使用驾驶评分（Driving Score）和成功率（Success Rate）作为评估指标。驾驶评分反映了带有违规行为的路线完成情况，而成功率则是没有违规完成路线的百分比。

主要结果

开环评估 ：为了更好地评估ReAL-AD框架的有效性，研究人员在nuScenes和 Bench2Drive 数据集上将我们的方法与几种最先进的方法进行了比较。如表 1 和表 2 所示，与基线方法 VAD 和 UniAD 相比，ReAL-AD方法在 L2 误差和碰撞率方面取得了显著的改进，改进幅度超过 30%。值得注意的是，我们的性能也优于其他使用相同基线的 VLM 辅助方法（如 VLP 和 VLM-AD），在 nuScenes 数据集上实现了最低的平均 L2 误差（0.48 米）和碰撞率（0.15%），在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。这表明引入人类决策过程使得网络在学习驾驶能力方面更加有效。

闭环评估：尽管开环指标能够提供部分性能结果，但为了评估实际应用中的表现，研究人员在 Bench2Drive 数据集上进行了闭环评估。结果显示，在引入ReAL-AD框架后，驾驶评分和完成路径的数量相较于基线都有了显著提升，这表明成功引入人类思维过程极大地提高了驾驶能力。

表1｜nuScenes 数据集上的开环规划评估结果

表2｜Bench2Drive 数据集上的开环和闭环规划评估结果

消融实验

研究人员在 Bench2Drive 验证集上进行了消融研究，以评估ReAL-AD提出的各个模块。参考 VAD 的方法，研究人员在这里采用了两阶段训练策略以加速实验进程。所有消融模型都共享相同的阶段一检查点，以确保公平比较，并且所有实验均使用 NVIDIA 4090 GPU，基于 VAD 和 MiniCPMLlama3-2.5V 的基线进行。

策略推理注入器的有效性：为了评估策略推理注入器模块的有效性，研究人员通过移除该模块进行了消融研究。如表 3 所示（设置 0 和 1），移除该模块后，平均 L2 误差增加了约 12%，平均碰撞率增加了 19%。这些结果表明，策略决策引导自我查询建模，使其能够自适应地优先处理与当前场景决策过程相关的信息，从而提升了整体规划性能。

战术推理整合器的有效性：如表 3 所示，研究人员通过实验2和实验6验证了该模块的有效性。在实验2 中，研究人员将嵌入的命令特征与建模的自我查询特征进行拼接，并通过解码器获得最终输出。比较实验 0 和 2，观察到平均 L2 误差减少了 0.14 米，平均碰撞率降低了 0.05%。这些结果表明，战术命令比战略决策更接近规划，提供了更具体的指导，降低了学习空间的复杂性，并使网络能够做出更明智的决策。

分层轨迹解码器的有效性：为了凸显分层轨迹解码器的重要性，研究人员将其替换为一个多层感知机（MLP），该 MLP 直接根据自我特征预测未来的轨迹。这一修改导致 L2 误差增加了 0.07 米，碰撞率上升了 0.07%（比较设置 0 和 3）。这表明直接解码细粒度轨迹存在挑战。缺少从简单到复杂、从粗到细的分层解码过程，阻碍了模型对轨迹预测的精细化调整能力，最终导致性能次优。

8 结论

这篇工作提出了 ReAL-AD，这是一个增强型的端到端自动驾驶学习框架，通过利用视觉语言模型在策略、决策和操作层面进行结构化推理，从而提升自动驾驶的性能。ReAL-AD 模拟人类的分层决策过程，将战略决策、战术指令和轨迹细化相结合。在 NuScenes 和 Bench2Drive 数据集上的广泛实验表明，该框架在轨迹规划精度和驾驶安全方面达到了最先进的水平。

#Epona

地平线联合多所高校提出：首个融合自回归与扩散的自动驾驶世界模型

地平线联合清华、北大、南大等单位提出了一种新型自动驾驶世界模型------Epona，新的世界模型框架融合了扩散模型与自回归模型的优势，实现了在单一框架下同时支持分钟级长视频生成、轨迹控制生成和实时运动规划。论文已被 ICCV 2025 录用。

⭐ 论文标题：Epona: Autoregressive Diffusion World Model for Autonomous Driving
📄 论文地址：https://arxiv.org/abs/2506.24113
🌐 项目主页：https://kevin-thu.github.io/Epona/
💻 GitHub地址：https://github.com/Kevin-thu/Epona/

🚗 世界模型的"架构之争"与现实瓶颈

随着生成模型在视频、图像和控制等领域的突破，世界模型逐渐成为智能体感知和决策的关键工具。在自动驾驶场景中，它的作用尤为重要：通过预测未来环境状态，世界模型有望提升轨迹规划的前瞻性，弱化对昂贵感知与标注系统的依赖，推动端到端自动驾驶向实用迈进。

但目前的世界模型架构仍呈现出"两极分化"：

一类以 视频扩散模型（如 GAIA-2、Vista）为代表，生成画面质量高，但只支持固定长度视频，无法灵活推理或控制；
另一类采用 自回归 Transformer 模型（如 GAIA-1、DrivingWorld），能够逐步预测长序列并支持轨迹控制，但在图像质量与误差积累方面存在明显短板。

这些方案往往只能满足单一侧重点，难以在真实驾驶任务中统一兼顾"画面真实感"、"决策控制性"与"长时序一致性"。Epona 正是针对这一痛点，尝试打破当前世界模型的结构性限制。

🔧 Epona 的核心思想：融合建模，结构解耦

Epona的设计从根本上重新定义了自动驾驶世界模型的构建方式：将生成任务划分为轨迹预测 与图像生成两条路径，并在时序与空间维度上进行解耦建模，从而实现灵活性与可控性的统一。

具体来说，Epona输入历史图像序列和轨迹控制，输出包括未来若干步的轨迹，以及下一帧图像画面。为支持这一过程，模型中引入了三个关键设计：

1️⃣ 解耦时空建模，分钟级长视频可扩展生成

通过使用多模态时空 Transformer 编码历史轨迹与图像序列，Epona获得时序潜变量；随后利用基于该潜变量的条件扩散生成模块（DiT），逐帧生成未来图像与轨迹。

该结构摆脱了视频扩散模型的固定长度限制，支持任意长度的长时序视频生成 。在 NuPlan 数据集上，Epona可连续生成600帧（2分钟）以上的高分辨率驾驶视频，为同类模型中罕见。

2️⃣ 轨迹与图像生成分离，可控模拟与实时推理兼容

Epona采用两个独立的扩散分支：

TrajDiT 用于生成未来轨迹序列；
VisDiT 根据控制输入生成下一帧图像。

这种结构带来了灵活的使用方式：

输入轨迹→输出视频，可用于可控可视化模拟；
仅启用轨迹预测模块→实现20Hz实时规划能力，无需渲染图像，即可辅助实际控制。

3️⃣ 引入 Chain-of-Forward 训练，缓解自回归误差积累问题

在长序列自回归生成中，误差积累常常导致生成效果退化。为应对这一挑战，Epona提出Chain-of-Forward（CoF）策略：训练过程中周期性使用模型自身预测结果作为下一步输入，从而逼近推理阶段的分布，提升模型稳定性。

该策略与近期 Self Forcing 方法思路不谋而合，但Self Forcing仍基于固定帧数的视频扩散模型调整，Epona基于逐帧自回归重新设计，进一步摆脱了固定视频长度的限制。

📊 实验亮点：统一建模带来多项指标提升

Epona 在 NuPlan 和 nuScenes 两个自动驾驶场景数据集上进行端到端训练，模型参数约 2.5B，图像分辨率为 512×1024。推理阶段支持单卡运行，图像生成速度约为 2s/帧，轨迹预测可实时运行。

✅ 分钟级视频生成能力

在与 Vista 和 NVIDIA Cosmos 等模型的对比中，Epona 展示出更强的视频长度与稳定性能力：

，时长00:32

✅ 轨迹可控视频生成

可接受外部轨迹输入并生成视觉模拟结果，支持驾驶控制与偏好定制：

，时长00:21

✅ 轨迹预测结果

在 nuScenes 与 NAVSIM 上的端到端轨迹预测任务中，Epona达到了与专门的运动规划网络相当的精度：

🧠 与相关工作的差异与衔接

近年来，"AR+Diffusion" 成为生成模型设计的新趋势。Epona的设计与以下几类方法有所区分：

|-----------|--------------------------------|---------------------------------------|
| 类别 | 代表方法 | 对比要点 |
| 多模态预训练 | Transfusion、JanusFlow、Bagel | 聚焦文本-图像统一建模，Epona专注视频/轨迹生成 |
| 连续token生成 | MAR、NOVA、VideoMAR | 解决VQ离散限制，但动态建模能力仍有限 |
| 扩散结构增强 | CausVid、Self Forcing、Vid2World | 基于原始视频扩散架构扩展时序建模，Epona从架构层重构，自带时空解耦能力 |

🔚 总结

Epona 提供了一种结构上融合自回归推理与扩散生成的新型世界模型方案，支持分钟级可控视频生成、实时轨迹规划与统一多模态建模，为自动驾驶智能体的感知与决策融合提供了可能路径。

尽管当前模型在物理建模、细节一致性方面仍有优化空间，但其框架设计为未来引入三维结构建模、交互建模等机制奠定了良好基础。

参考文献[1] GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving