自己的原文哦~https://blog.51cto.com/whaosoft/11707335
#EvaDrive
GRPO并非最优解?EvaDrive:全新RL算法APO,类人端到端更进一步(新加坡国立)
新加坡国立、清华和小米等团队最新的工作 - EvaDrive。这篇工作认为:
- 目前基于扩散模型的自车轨迹生成方法,其先生成后评测的框架一定程度阻碍了轨迹生成和质量评测的交互,对于自车轨迹规划而言并不友好;
- 另一方面,强化学习将多维偏好压缩为标量的奖励,模糊了模型学习中关键的trade-off,得到的奖励只是标量化的偏差,无法引导模型更好的优化。
为了解决这些问题,EvaDrive应运而生 - 一个全新的多目标强化学习框架,通过对抗性优化在轨迹生成和评测之间建立真正的闭环协同进化。EvaDrive将轨迹规划表述为多轮对抗游戏。在这个游戏中,分层生成器通过结合自回归意图建模以捕捉时间因果关系和基于扩散的优化以提供空间灵活性,持续提出候选路径。然后,一个可训练的多目标critic对这些proposal进行严格评测,明确保留多样化的偏好结构,而不将其压缩为单一的标量化偏差。这种对抗性迭代,在帕累托前沿选择机制的引导下,实现了多轮迭代优化,有效摆脱了局部最优,同时保持了轨迹多样性。在NAVSIM和Bench2Drive基准上的广泛实验表明,EvaDrive达到了SOTA,在NAVSIM v1上实现了94.9 PDMS(超过DiffusionDrive 6.8分,DriveSuprim 5.0分,TrajHF 0.9分),在Bench2Drive上实现了64.96驾驶分数。EvaDrive通过动态加权生成多样化的驾驶风格,而无需外部偏好数据,引入了一种闭环对抗框架,用于类人的迭代决策,提供了一种全新的无标量轨迹优化算法。
引言
近年来,自动驾驶技术取得了显著进展。这些进展使车辆能够在日益复杂的环境中导航。尽管在感知、预测和规划等模块化方法上取得了实质性进展,但将这些能力整合成一个完整的驾驶行为仍然是一个挑战。这一整合挑战的核心是车辆轨迹规划,即生成可行、安全且高效的运动轨迹的过程。

传统的模块化方法提供了可解释性和可分解性,但容易在各个阶段累积误差。相比之下,端到端方法能够实现整体优化,但通常在泛化能力上表现不佳,并且难以对复杂驾驶决策中固有的多模态性进行建模。最近,生成-评测框架因其能够调和多样性与可控性而受到关注。轨迹生成器通过采用概率模型(如基于扩散的方法)来捕捉不确定性,从而合成多样化的轨迹候选。与此同时,评测器学习可微分的评分函数,根据预定义的多目标指标对这些轨迹进行排名。
尽管取得了近期进展,当前的生成-评测框架将规划和评测视为独立的、顺序的过程,缺乏类人决策所必需的闭环交互。相比之下,专业驾驶员会根据动态反馈持续生成、评测和优化动作。为了弥合这一差距,强化学习(RL)方法已成为有前景的替代方案。像TrajHF这样的方法使用GRPO,利用人类反馈来微调轨迹模型,而DPO风格的方法则通过成对偏好对齐来优化行为。然而,这些方法在自动驾驶领域面临着关键的局限性。首先它们依赖于人工标注的成对排序,这会引入主观性和不一致性,可能导致策略错位。其次,它们起源于语言任务,导致在连续、高维的驾驶场景中出现领域不匹配。最关键的是,一步优化缺乏安全、自适应规划所必需的迭代优化过程------这限制了在安全关键环境中的鲁棒性。
事实上,人类驾驶员会通过内部想象和与环境的交互,持续评测和优化轨迹决策,在做出最终行动之前会推理多个备选方案。这一观察引出了一个关键问题:自动驾驶车辆能否利用多模态轨迹提案和多轮优化来增强规划的鲁棒性,并与细致入微的人类偏好保持一致?我们以肯定的答案提出了EvaDrive,这是一种新颖的框架,它将轨迹规划重新表述为一个具有真正闭环交互的多目标强化学习问题。
与之前将多维偏好压缩为标量奖励的强化学习方法不同,EvaDrive采用了一个可训练的多目标奖励模型,该模型保留了安全、舒适和效率等多样化偏好结构,避免了标量化偏差。我们的方法基于两个关键见解:自动驾驶提供了自然可量化的指标,避免了GRPO所需的带噪成对排名;可行的轨迹构成了一个帕累托non-dominated集 set,其中各目标之间存在权衡。传统的标量化将这些目标压缩为单一指标,模糊了最优解并降低了策略的多样性。EvaDrive利用分层生成器和多目标critic之间的对抗性协同进化,实现多轮迭代优化,既能摆脱局部最优,又能保留强化学习的试错特性。主要贡献如下:
- 分层规划器:结合自回归意图建模(以捕捉时间因果关系)和基于扩散的优化(以提供空间灵活性),实现精确的轨迹建模。
- 多轮优化机制:连接轨迹生成和评测过程,通过动态反馈实现持续适应,并利用帕累托前沿选择机制巧妙地避免局部最优。
- 对抗性策略优化:通过生成器和评测器之间的动态博弈,不仅驱动轨迹质量的持续提升并有效摆脱局部最优,还能通过调整多个优化目标的动态权重比,生成不同风格的轨迹。
相关工作回顾 端到端自动驾驶 (E2E AD)
模仿学习(IL)已被广泛用于自动驾驶的端到端轨迹规划,其中原始传感器输入被映射到专家演示。UniAD和Transfuser利用鸟瞰图(BEV)表示,并引入了统一的多任务和安全感知架构,以构建以规划为中心的框架。VAD通过采用基于查询的表示并构建轨迹词汇表,进一步改进了这一设计,有效地将问题从回归任务转变为离散分类任务。
最近的基准测试,如NavSim,通过多智能体场景推动了端到端规划的发展,而包括Hydra-MDP、GTRS和iPad在内的框架则采用基于评分器的轨迹合成,并整合了环境交互。然而,这些方法普遍缺乏生成器-评分器的反馈回路。相比之下,我们受人类决策启发的解决方案将轨迹生成和评测整合到一个迭代优化循环中。
生成任务中的强化学习(多目标和多轮)
强化学习已成为优化复杂、目标驱动场景下生成模型的关键范式,尤其是在多目标和多轮对话系统中。这些任务需要平衡相互竞争的目标(例如,流利性、连贯性、任务成功率)并在多轮交互中保持长期上下文的一致性。
关键挑战包括不可微奖励工程、稀疏奖励的探索-利用权衡以及跨用户的泛化能力。新兴的解决方案将大语言模型(LLM)用于奖励建模和使用离线强化学习来降低交互成本,而与预训练对话系统结合的混合方法则在任务效率和自然流利性之间取得平衡。在自动驾驶领域,后训练对齐方法如GRPO和DPO被用于优化与人类偏好的匹配。相比之下,我们的框架开创性地将多轮多目标强化学习与对抗性策略优化(APO)相结合,用于轨迹优化。
问题定义
自动驾驶中的强化学习
强化学习(RL)旨在优化一个策略 以最大化期望累积奖励:
其中 和 分别表示状态和动作。在Actor-Critic框架中, 提出动作(Actor),而一个奖励函数对其进行评测(Critic)。对于自动驾驶, 规划未来的轨迹, 编码场景上下文, 代表自车轨迹。奖励 反映了驾驶特定的目标,如安全性、舒适性和交通规则遵守情况。
多目标优化
传统的强化学习方法(例如DPO/GRPO)将复杂的决策简化为标量奖励最大化,这对于自动驾驶来说是不够的,因为自动驾驶需要联合优化相互冲突的目标:安全性、舒适性、效率和规则遵守。
为了捕捉这种多面性,我们将驾驶奖励表示为一个目标向量:
其中每个 对应一个不同的目标。学习问题变为最大化期望的向量值回报:
对于相互冲突的目标(例如,安全 vs. 效率),标量化会掩盖关键的权衡。相反,我们寻求帕累托最优解------即不存在其他解能在不损害至少一个其他目标的情况下改进任何一个目标------这些解构成了多目标优化的目标帕累托前沿。
重新引入奖励模型
为了避免隐式或过度简化奖励的局限性,我们采用了一种类似于RLHF的奖励学习方法,引入一个可学习的奖励模型 来预测 ,其训练过程如下:
- 偏好数据:真实的 来源于基于仿真的轨迹指标(例如,障碍物接近度代表安全,急动度代表舒适)。
- 奖励模型训练 : 通过均方误差(MSE)进行监督学习以匹配真实值:
其中 是预测的奖励向量。 - 策略优化 :训练好的 作为环境反馈的可微分代理,使得策略可以通过多目标信号进行更新。
算法详解

在多目标强化学习的框架内,我们现在详细介绍我们方法的核心组件,包括轨迹生成和评测模块(Actor和Critic)、多轮优化机制以及对抗性偏好优化范式。
作为Actor的轨迹规划器
我们提出了一种轻量级的结构化轨迹规划器,称为分层建模规划器 ,作为我们强化学习框架中的Actor。该Actor集成了两个核心组件:一个自回归意图生成器 和一个基于扩散的优化器,旨在解决规划中的两个关键挑战:时间因果关系建模以及在不确定性下对全局空间轨迹进行精细化优化。
首先,提取当前自车状态 ,并基于此通过一个多层感知机(MLP)生成一组初始候选序列 (其中 表示序列数量, 表示每序列的姿态数量,3对应每个姿态的xy坐标和偏航角)。通过一个冻结的视觉主干网络提取图像特征 ( 为空间分辨率, 为特征维度),作为全局环境上下文。
阶段一:自回归意图建模 该阶段使用多头交叉注意力(MHCA)机制对时间上连贯的运动意图进行建模,记为 以强调其时间特异性。形式上,查询向量 直接采用初始候选序列 ;键向量 和值向量 通过连接上下文特征构建,并通过可学习的线性变换投影到统一维度:
其中 表示历史轨迹特征( 为历史时间步数, 为特征维度)。时间交叉注意力操作定义为:
其中 表示作为自回归优化候选的时间优化意图特征。一个关键设计是矩形注意力掩码,它将 (大小为 )与 (大小为 )对齐,通过只允许 中的每个时间步关注 中当前和过去元素来强制执行时间因果关系。此约束对于学习时间依赖的运动模式(例如,转弯前减速)和保持动作的因果顺序至关重要。
阶段二:基于扩散的优化 尽管自回归模块捕捉了时间连贯性,但它在不确定性建模和空间灵活性方面能力不足。为了解决这个问题,我们使用去噪扩散隐式模型(DDIM)向前向 注入噪声,生成在扩散步 的随机输入 :
其中 和 是预计算的DDIM系数, 是标准正态噪声向量。这些带噪声的候选通过一个第二阶段模块进行优化,该模块包含空间交叉注意力 ,后接一个轻量级的Transformer解码器 。空间交叉注意力操作定义为:
其中 表示空间增强特征。解码器输出去噪后的候选特征:
最终轨迹通过一个MLP解码:
得益于自回归特征的引导,我们的去噪器通过单步去噪 实现了高效的轨迹生成,消除了传统扩散模型中多轮推理的需要。这显著提高了计算效率,满足了实时部署的延迟约束。
作为Critic的奖励模型
为了实现奖励引导的学习,我们引入一个奖励模型作为Critic,用于评测预测轨迹并为规划器提供多目标反馈。与传统的标量奖励函数不同,它提供结构化的高维监督,匹配驾驶的多目标本质。
给定第 个预测轨迹 ,我们首先通过时间最大池化聚合其时间规划特征(例如,第二阶段输出的去噪锚点特征 ):
聚合后的 捕捉了轨迹的全局语义意图,输入一个MLP,该MLP输出 个标量奖励分量。所有轨迹的这些分量组成的向量共同构成了之前定义的驾驶奖励向量 :
值得注意的是,轨迹评测是多目标的:Critic独立地估计每个目标(而非一个标量),保留了奖励的多样性,避免了过早聚合,并能在后续优化中实现有效的帕累托前沿探索。
多轮优化机制
传统的自动驾驶规划单步优化最大化即时奖励,但缺乏反馈回路。虽然高效,但这种单向方法无法支持通过试错进行的迭代优化,尽管有明确定义的奖励函数 ,但在安全关键任务中仍会损害可靠性。
为了解决这个问题,我们提出了一种多轮轨迹优化机制(算法1),将现有的多目标优化框架扩展为一个迭代的强化学习风格过程。具体来说,我们定义了总共 轮优化,索引为 。在每一轮中,Actor策略 根据当前规划状态 以及(如果适用)前一轮的引导轨迹生成一组候选轨迹。在完成所有 轮后,我们从最后一组候选 中选择最终输出轨迹 。
我们通过使用多目标奖励评测最终输出轨迹来定义整体训练目标:
其中 表示最终规划状态, 从候选集 中选出。这里, 表示一个任务级评测函数,用于衡量在最终上下文中完成轨迹的整体质量。
然而,在训练过程中,我们需要对每一轮的候选轨迹进行更细粒度和中间的评测。为此,我们定义了一个轮级多目标奖励函数,它与 具有相同的维度,但反映了局部的、每轮的轨迹质量。该函数充当一个向量值Critic,为每个轨迹输出 个标量奖励分量。
在每一轮 中,优化过程如下进行:
- 生成候选轨迹:Actor根据当前规划上下文生成一组候选轨迹 。
- 评测奖励向量 :对于每个轨迹 ,Critic模型评测其多维奖励向量:
其中 是奖励维度的数量(例如,安全、效率、舒适)。标量函数 代表第 个奖励分量。由于这些目标通常存在权衡,我们避免奖励标量化以保持候选行为的多样性。 - 提取帕累托前沿 :我们从 中提取帕累托前沿 ,定义为所有非支配轨迹的集合:
其中 表示轨迹 支配 ,即它在所有奖励维度上表现至少一样好,并且在至少一个维度上严格更好。 - 采样引导轨迹 :为了促进探索并减轻对狭窄解的过拟合,我们从帕累托前沿中均匀采样 个引导轨迹:
这些轨迹用于在下一轮中调节Actor策略: - 更新规划状态(可选):可以根据所选轨迹或状态转移函数更新规划状态 ,从而在动态环境中实现自适应规划。
该机制通过帕累托引导采样和迭代策略优化实现了原则性的多目标规划,支持现实世界的自动驾驶。

对抗性策略优化(APO)
为了实现偏好感知的轨迹优化,我们提出了对抗性策略优化(APO),这是一种将策略训练表述为带有对抗性奖励学习的多目标优化问题的学习范式。该方法借鉴了对抗性训练原理,同时专门解决了自动驾驶评测任务的多维性质。
给定一个轨迹策略 和一个可学习的多目标奖励模型 ,它输出一个奖励向量:
其中 表示不同的驾驶性能指标数量(例如,安全、舒适、效率),我们定义APO的核心目标。
令 表示专家演示数据集。对于每个目标维度 ,我们定义:
整体优化是一个向量值目标:
在这里,策略生成器()旨在生成能最大化所有维度奖励预测的轨迹,而奖励模型()则学习为专家演示分配比生成轨迹更高的奖励,从而为生成器提供梯度,引导其向专家般的行为发展。
加权标量化多目标优化 该优化解决了一个多目标问题,其中每个奖励分量 对应一个不同的驾驶性能指标。为了使问题在计算上可处理,我们采用加权标量化(Zadeh 1963),使用一个偏好向量 ,满足 且 。标量化目标为:
的不同选择能够生成具有不同行为特征的轨迹。
生成器优化() 生成器使用策略梯度进行更新:
参数更新为:
这种加权方法将多目标优化转换为单目标问题,同时通过 实现了多样化的轨迹风格。
奖励模型优化() 奖励模型通过最小化以下目标来训练,以区分生成轨迹和专家轨迹:
参数更新为:
这确保了奖励模型在所有目标上保持平衡的判别能力,防止生成器在单一维度上陷入局部最优。
训练目标
总训练损失促进了生成器(Actor )和多目标奖励模型(Critic )之间的对抗性交互和联合优化:
这种损失公式使Actor能够生成高质量、偏好对齐的轨迹,同时Critic不断精化其奖励评测,促进它们的协同进化。详细的组件定义见附录。
实验结果分析
实现细节
实验在NAVSIM上进行,包括使用真实世界数据在NAVSIM v1(PDMS指标)和v2(EPDMS指标)上的开环评测,以及通过CARLA进行的闭环仿真(Bench2Drive)。我们的模型使用ResNet34作为主干网络,MLP作为自车状态编码器和奖励模型,并采用三摄像头设置。训练在4块NVIDIA H20 GPU上进行,使用Adam优化器(每块GPU的batch大小为8,学习率为7.5 × 10⁻⁵),在生成器和判别器之间交替进行5个epoch的训练周期,共进行30个epoch。数据集和指标的详细信息见附录。

定量与定性比较
定量分析 。表1显示,EvaDrive在NAVSIM v1上达到了最先进的水平,实现了94.9 PDMS------超过了DiffusionDrive 6.8分,DriveSuprim 5.0分,以及TrajHF 0.9分,且不依赖外部偏好数据。通过调整权重向量 ,我们实现了多样化的驾驶风格,包括保守型 (偏好安全,低EP)和激进型(高EP,主动行为)。在CARLA的Bench2Drive上,EvaDrive获得了64.96的驾驶分数(表2),验证了其闭环能力。
定性分析。图4a比较了来自真实轨迹(GT)、DiffusionDrive和EvaDrive的轨迹。与基线固定的驾驶行为不同,EvaDrive通过调整 能够在保守和激进模式之间实现平滑过渡,而无需手动规则。图4b进一步展示了帕累托前沿的大小和分布在迭代过程中的演化,突显了其在多目标空间中探索多样化、高质量解的能力。
路线图式消融实验

为了系统地评测EvaDrive中的关键组件,我们进行了一项路线图式消融实验。从一个基本的模仿学习基线(S0)开始,我们逐步引入了两阶段生成器、多目标奖励模型、多轮优化、帕累托前沿引导和对抗性偏好优化。表3总结了每个模块在NAVSIM v1基准上的规划性能影响。附录中提供了额外的消融结果和分析。
- S1:引入两阶段生成器显著提高了轨迹的平滑性和空间多样性(PDMS提升+5.0)。自回归阶段捕捉了时间意图,而基于扩散的优化器增强了空间灵活性。
- S2:在S1的基础上,我们引入了一个多目标奖励模型,将多样化的标准(如碰撞、加速度、自车进展)编码为显式信号。这使得在舒适度和效率之间能够进行细粒度的权衡,将PDMS提升至91.7。
- S3:添加多轮优化通过历史反馈实现了迭代优化,通过持续校正增强了鲁棒性,减少了局部最优(相比S2,PDMS提升+2.0,达到93.7)。
- S4:帕累托前沿引导在各目标之间保持了最优的权衡,促进了多样化且高质量的解决方案,实现了94.2的PDMS。
- S5:对抗性偏好优化通过训练奖励感知的判别器,利用反馈来优化生成器,从而提升了策略质量,达到了最高的94.9 PDMS。

结论
本文提出了EvaDrive,这是一种通过对抗性协同进化将生成与评测统一起来的多目标强化学习规划器。该方法借鉴人类决策,利用多轮帕累托优化和一个结构化的非标量奖励模型,在避免标量化偏差和标注噪声的同时保持了轨迹多样性。通过结合分层生成器、基于扩散的优化器和判别器,EvaDrive能够对轨迹语义、多样性和安全性进行精确控制。在NAVSIM和Bench2Drive上的评测表明,EvaDrive实现了94.9 PDMS和64.96驾驶分数,使EvaDrive成为首个在开环和闭环设置中均能实现无标量化、偏好感知轨迹优化的闭环规划器。
更多可视化:


.
#智能驾驶域控制器
汽车智能驾驶功能持续高速渗透,带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件,主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片,英伟达、地平线等芯 片厂商市场地位突出。随着消费者对智能驾驶功能需求的不断提升,基础L2 功能成本下探,中低算力方案搭载率快速增长;头部厂商智驾水平持续提升, 城市NOA覆盖范围扩大,高算力域控产品需求同样旺盛。BEV+Transformer 的广泛应用也使得智驾域控的算力提升和结构变化。
智能驾驶功能渗透率快速提升。智能驾驶功能渗透率仍处于较低位置, 提升空间较大。随着技术快速成熟、产品价格逐渐下降及用户智能化体 验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展, 渗透率快速提升。智驾功能的性能和搭载率的提升将带动智驾域控制器 的需求快速增长。 智能驾驶域控制器为整车计算中心。智驾域控制器主要包括计算芯片、 Safety MCU、存储芯片及其他无源器件等。其中计算芯片主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合 和轨迹预测等功能,是决定智驾域控性能的核心部件。智能驾驶芯片具 有较高的技术壁垒,现阶段市场高端芯片以英伟达、华为为主,中低端 芯片厂商较多,主要包括地平线、Mobileye、TI、黑芝麻智能等。各主要 芯片厂商积极拓宽产品矩阵,国产芯片市占率持续提升。与主要芯片厂 商建立稳定的合作开发关系的智驾域控供应商有望受益。
芯片开发和生产制造能力仍为核心竞争力。随着BEV+Transformer 的应 用,智驾功能对车端算力要求更高,加上城市NOA及后续L3功能的搭 载,高算力芯片仍为头部主机厂中高端车型首选方案。智驾域控仍以国 内Tier 1 厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研 发积累、资金限制及自身销量等问题,自研难度大、成本高,不一定有 足够的销量来摊薄前期研发成本。目前L2及以上智驾域控以国内厂商为 主,产品布局全面、芯片开发设计实力强、量产制造能力丰富、出货量 较大的供应商具备一定竞争优势。
L2 级智能驾驶功能渗透率快速提升
L2 级智能驾驶功能渗透率快速提升 2021 年8月,工信部提出《汽车驾驶自动化分级》推荐性国家标准。《标准》按"是否存在设计运 行范围限制"等六要素对驾驶自动化等级进行划分。其中L2级自动驾驶关键配置有ACC自适应巡 航、AEB 主动刹车、LKA车道保持等,实现一定程度上的车辆主动控制。L3级自动化系统应该具 备在其设计运行条件下持续地执行全部动态驾驶任务的能力。由于L2至L3的跨度过大,经历时间 较长,业内为区分不同系统的智能化程度,额外划分出L2+级别,主要包括NOA等功能,可实现高 主动的辅助驾驶功能,但仍需驾驶员监督。
国标驾驶自动化等级与划分要素的关系
从功能上看,智能驾驶功能经历从单车道向多车道再向 NOA 发展的过程。
早期辅助驾驶功能集中 在单车道里,以车辆前后的控制为主,重点实现跟车不碰撞、驾驶不偏移等效果,主要功能包括ACC (自适应巡航)、LCC(车道居中控制)、TJA(交通拥堵辅助)、CCS(定速巡航)、AH(自动 驻车)等。随着技术的不断推进,辅助驾驶逐渐开始涉及多车道场景,由系统可以控制车辆进行变 道,主要功能包括 ALC(智能辅助变道)、TJA-ML(多车道交通拥堵辅助)、HWA-ML(多车道 高速驾驶辅助)。近年各企业向点对点控制推进,在选定目的地即可交由辅助驾驶功能进行控制, 主要为高速NOA及城市NOA功能。
智能驾驶功能渗透率仍处于较低位置,提升空间较大。
随着技术逐步走向成熟、产品价格逐渐下降 及用户智能化体验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展,渗透率快速 提升。据高工智能汽车数据显示,2023 年 1-6 月中国市场(不含进出口)乘用车前装标配 L2(含 L2+)辅助驾驶功能车型销售324.4万辆,同比增长37.7%,增速维持较高水平。前装标配搭载率为 34.9%,同比提升约8pct。其中,新能源汽车前装标配搭载L2(含L2+)交付新车147.1万辆,同比 增长75.6%,前装标配搭载率为50.4%,同比提升约10pct。智驾功能性能和搭载率的提升将带动智 驾域控制器的增长。拥有智能驾驶功能的车型中以域控架构为主,域控制器作为车端处理感知信息、 进行决策规划的重要零部件,用量有望随着智驾功能渗透率的提升而增长。自动驾驶视觉相关 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~
NOA功能逐步落地,成为智能化重要发力方向。自动辅助导航驾驶(NOA,Navigate on Autopilot) 主要分为高速NOA和城市NOA两类,在基础L2辅助驾驶功能的基础上,通过与地图导航等功能 结合,实现点到点的辅助驾驶功能。据高工智能汽车数据,2023年1~7月前装标配NOA车型交付 量26.3 万辆,同比增长120.4%。高速NOA为当前主机厂智驾推进目标之一。高速NOA场景相对简单,路况、标志和标记的图像相 对标准,相比城市NOA场景更为简单,推出进度相对更早。早期高速NOA融合高精地图,在部分 高速公路或高架等封闭路段行驶时,可以让车辆实现自动变道、自动进入和驶出匝道口的技术功能。但上下匝道需要高精地图和高精定位模块,成本较高。随着车企成本压力增加,高速NOA或将向简 化版方案发展,即舍弃上下匝道功能,仅在目标匝道前进行接管提醒,避免错过匝道等问题发生。城市NOA加速落地,覆盖主要行车使用场景,为用户提供从高速到城市的全场景可持续的自动驾驶 功能。早期城市NOA功能普遍使用高精地图,提供更精确的定位服务,但高精地图采集成本高、覆 盖率较低、更新慢,难以满足城市NOA快速大规模的上车需求。随着车端算力及传感器功能迭代升 级,单车感知水平不断提升,大部分厂商通过"轻地图"+单车感知方案,即仅在匝道口等导航地图 难以精确处理的部分做数据强化,实现NOA功能。
城市NOA主要功能
城市NOA功能快速铺开,应用城市逐渐普及。
随着大量车企向BEV+Transformer 的视觉感知路线 转换,逐步降低对地图的依赖,城市NOA功能具备了泛化推广的能力。根据相关公司规划,华为拓 展速度领先,预计在2023年年底前实现全国覆盖;其余企业覆盖城市也迅速扩张,小鹏宣布到 2023 年底扩增至 50 城,2024 年扩增至 200 城,力争做到城区领航辅助驾驶「全国都能用」;理想计 划在 2023 年底推送至 100 个城市。蔚来另辟蹊径,按通勤道路开通,计划2023 年Q4开通城区 领航路线里程 6 万公里;2024年Q2开通40万公里。
部分厂商城市NOA进度
自动驾驶标准逐步落地,L3合规加速推进。
2022年8月,深圳市正式施行《深圳经济特区智能网 联汽车管理条例》,对智能网联汽车定义、测试及示范应用条件、权责归属等问题进行了详细定义, 是全国首个对L3及以上自动驾驶权责、定义等重要议题进行详细划分的官方管理文件。2022 年11月,工信部发布《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》, 对智能汽车生产企业和产品以及试点上路通行做出了详细要求。2023 年7月,工信部、国家标准委联合发布《国家车联网产业标准体系建设指南(智能网联汽车)(2023 版)》,提出第一阶段到 2025 年,系统形成能够支撑组合驾驶辅助和自动驾驶通用功能的智能网联 汽车标准体系;到2030年,全面形成能够支撑实现单车智能和网联赋能协同发展的智能网联汽车标 准体系。随着国内自动驾驶标准体系和管理政策逐步细化落实,国内相关产业有望快速发展。
2020 年-2023 年中国自动驾驶主要政策整理
汽车消费升级趋势持续,智能化需求不断增加。
据乘联会数据显示,2023年前三季度 30万元以上 车型销量占比大幅提升,10万元以下车型销量减少。据高工智能汽车数据显示,23H1标配搭载L2 (含L2+)交付新车均价为26.6万元,相比2022年末提升1.5万元。智能驾驶功能在高端车型的渗 透率逐渐提升。随着消费者消费能力的提高以及消费观念的转变,消费者不再将汽车局限于简单的 出行工具,而是将其作为追求生活品质的载体之一,越来越重视汽车的用户体验及享受度的提升, 更加追求汽车的娱乐性、互动性、舒适性及安全性等功能,从而使得消费者对智能汽车的关注度日 益提高,加快汽车智能化发展的进程,使得智能汽车渗透率稳步提升,同时对汽车各类功能的丰富 度提出了更高的要求。
政策、需求和供给三方面推动,汽车智能化水平快速提升。随着新一代消费者比例逐步增加,智能 座舱、智能驾驶等个性化功能的需求越来越凸显。且越来越多的厂商开始重视用户体验,从车身设 计、智能化服务、自动驾驶功能等多角度提升用户驾乘感受。同时,车辆本身也已经从代步交通工 具向智能移动空间转变,车辆数字化转型已成行业共识。随着用户智能化体验需求的不断提升、政 策的持续推进、行业的高度重视,汽车智能网联技术发展迅速。
NOA功能预计有望快速渗透。
目前NOA处于高速发展阶段,随着软件算法逐步升级技术逐渐成熟、 感知方案向重视觉感知路线转换成本降低,NOA功能具有向低价格带车型拓展、应用场景不断丰富 等特点。根据高工智能汽车研究院监测数据显示,从当前搭载NOA功能车辆价位来看,标配NOA 领航功能的车型大部分集中在30万以上价格区间,而小鹏P5、吉利博越L、宝骏云朵灵犀版等20 万以下的车型也开始逐渐实现NOA的搭载。我们预计NOA未来将逐渐成为中高端车型标配,同时 扩大搭载范围,下探到10~15万左右的车型。我们预计明年10万以上车型将可以选配高速NOA;20万以上车型将会标配高速NOA,选配城市NOA;30万以上车型将会实现城市NOA普及。
特斯拉坚定拥抱重视觉感知方案。
2018年,特斯拉视觉感知路线通过2D 图像+ CNN卷积神经网络 路线实现智能驾驶功能,对于图像的标注主要依靠人工标注,于2019年采用一部分自动标注来提升 标注效率。该阶段聚焦在2D图像处理,将图像处理完后拼接成single trip,实现时间的多帧融合。该方式对图像的处理属于规则算法,通过IPM将2D图像坐标进行计算,转换到3D空间中。但2D 图像处理在处理三维世界中的感知问题仍会有较大问题,如路面不平、车辆颠簸等问题都会影响到 转换的准确度。2020年特斯拉转向BEV方案,并将CNN神经网络转向Transformer。先在BEV空 间层中初始化特征,再通过多层Transformer 和 2D 图像特征进行交互融合,得到BEV特征,避免 了视觉融合时导致的误差问题。BEV方案2020年重点关注路网的感知,2021年拓展到整个空间, 进行数据重建。
国内厂商向重视觉路线转变。
国内厂商早期以融合路线为主,通过高精地图+毫米波雷达+激光雷达 的多传感器方案进行感知,对于静态障碍物(如路网、井盖等)的感知主要依赖高精地图和激光雷 达,视觉主要用于动态障碍物(如车辆等)的识别。目前为了节省成本、增强自动驾驶功能泛用性, 头部企业向BEV+Transformer 的重视觉方案转型。
小鹏Xnet BEV算法架构
BEV+Transformer 的广泛认可导致智驾域控结构发生变化。智驾方案早期摄像头以前视为主,四周 主要靠毫米波雷达实现环视覆盖,较为广泛的方案为5R(Radar)1V(Video)、3R1V、1R1V、2R1V、 5R3V,支持的摄像头数量较少。同时路网信息主要依靠高精地图提供,视觉传感器以动态障碍物识 别为主,静态障碍物主要依靠激光雷达实现感知。但是BEV架构下,需要至少6~8个摄像头实现车 身周边感知(前后左右各一个,四角各一个),摄像头接口需求增加。同时由于取消高精地图,部 分定位模块可以减少或简化。由于大模型搭载,低算力芯片性能难以支持端侧部署,对芯片算力有 了更高的要求。域控芯片需要调整以适应Transformer模型。早期AI芯片主要会考虑对 CNN、Pooling 等的优化。但是 Transformer 的神经网络与原先差别较大,需要不同的算子进行支持。如果芯片不支持 Transformer 算子,会导致在GPU上训练时候用Transformer训练,但是部署在车端时候需要进行算 子转化,带来一定的困难,导致最终在端侧并不是BEV+ Transformer,而且近似CNN的替代算法。目前头部芯片厂商如地平线、英伟达等已经实现对 Transformer 算子的支持,后续部分厂商需要将 BEV+ Transformer 下放到端侧。
特斯拉Model 3传感器配置
感知方面,感知重心向视觉传感器转移。智驾系统向BEV+Transformer转型后,低成本的视觉 传感器更为重要,为保证数据获取的精确度和完整度,摄像头的像素和数量也不断增加,800 万像素摄像头使用量逐渐提升,摄像头数量也向单车 10个以上发展。毫米波雷达和激光雷达 短期内仍难以替代。由于国内使用Nerf进行多帧重建仍有待提升,故需要激光雷达或4D毫米 波雷达获取路网数据,进行车道线识别。此外,由于纯视觉系统对于暗光环境和非标准物体等 场景的识别准确问题仍无法完全解决,通常需要4D毫米波雷达进行静态障碍物识别。我们预计摄像头和4D毫米波需求有望增长。
Mobileye 4D 毫米波雷达点云效果近似4线激光雷达
**相比基础的L2功能,NOA功能对精度的要求更高,需要更精确的感知,对计算量的要求也更高。**虽然BEV感知在低算力(如8Tops)芯片上可以运行,但是一方面感知精度相比于中高算力芯片要 低。另一方面算法方案上的选择也会有一些差别。高算力平台大都基于Transformer的carrier-based 方案;在低算力平台,更多是类似BEV Depth、BEV Det这种2D转3D的方式去实现。而且对于无 图或轻图的NOA功能,由于缺少已知的地图信息,域控需要处理更多的感知数据,对域控制器的算 力要求更高。随着智驾功能的发展,高算力芯片仍为头部主机厂中高端车型首选方案。智能驾驶域控硬件的核心 是其芯片的运算能力。随着各个厂商向重视觉感知的大模型技术路线转型,高级别智驾对车端算力 的要求越来越高,需要性能更强的芯片支撑。相比城市 NOA,L3 级智能驾驶对算力的需求更甚, 当前已量产芯片较难满足L3级智驾需求,芯片向更高算力发展的进程仍在持续。车企也需采用足够 强力的芯片进行算力 预埋,以支撑日后有效升级。针对未来L3级智能驾驶,主机厂需要进行冗 余设计,以保证系统安全。较为简单的设计是放置两个域控制器/增设备份芯片,智驾芯片需求量后 续有望提升。
**整车E/E 架构快速演进。**E/E架构的四个阶段分别是分布式架构阶段、域集中架构阶段、准中央计 算架构阶段及中央计算架构阶段。主机厂正加快推进电子电气架构的演进,域集中架构阶段包括大 众 E3 架构、长城 GEEP3.0 架构等。中央计算平台+区域控制器的准中央计算架构阶段包括特斯拉 Model3、长城GEEP 4.0架构等。汽车E/E架构最终演进的方向是中央计算架构阶段,将功能逻辑均 集中到1个中央控制器,如长城计划于2024年推出中央计算架构GEEP 5.0,将实现全车只有一个 大脑,完全形成智能机器人,长安也计划于2025年完成中央域架构的开发。
汽车电子电气架构演进方向
分布式ECU架构各系统独立,系统复杂协同性差。分布式架构ECU为核心,多个ECU通过CAN 和LIN总线连接在一起,进行数据采集与交换,并通过执行器来操控汽车。在传统的分布式电子电 气架构中,每个控制系统都采用单独的 ECU,彼此之间均保持相对独立性,功能增加需要 ECU和 传感器数量的叠加。随着汽车智能化的发展趋势,功能越来越丰富和多样,导致单车的ECU数量激 增,安装成本也随之提高。同时不同ECU来自不同的供应商,每个产品的语言和编程风格各异,因 此功能的增加会导致大量的、不兼容的、风格各异的产品模块存在,难以进行统一的维护和升级, 协同困难巨大,无法满足汽车智能化革新的趋势和需求。
**DCU成为新的电子电气架构的核心。**DCU(域控制器)将功能相似且分离的ECU功能集成整合起 来,解决了分布式E/E架构存在的诸多问题。根据博世汽车电子部件功能分类,将整车划分为动力 域、底盘域、座舱域、自动驾驶域、车身域五个域,每个域的系统架构由域控制器为主导搭建,利 用处理能力和算力更强的中央计算机相对集中地控制每个域,以取代分布式电子电气架构。
**域控架构高度集成,有明显的成本和设计优势。**1)线束数量显著减少,节约安装成本。DCU 通过 集成化的域控化管理,各个功能模块以区域内的域控制器为主导,减少了ECU的数量,从而降低了 线束的数量及重量,节省安装成本。2)整合集成度高,便于协同管理。各功能模块ECU软件通常 由其硬件供应商开发,导致系统之间相互独立,难以协调。DCU统一了软件开发和管理,加之数据 交互的接口标准化,降低了开发和制造成本。3)计算能力较高,便于OTA升级。模块越少、系统 越统一越容易实现整车OTA,域控制器更为集中的EEA架构将车内各个分散的ECU部件的控制功 能集成在一个DCU中,仅对DCU进行控制功能进行更新升级完成OTA,同时规避了各ECU的不 同传输协议和兼容性风险,减少了每个ECU进行安全性确认防篡改的工作量。
智能驾驶域控制器是汽车智能化发展的重要环节
智能驾驶域是E/E架构的重要组成部分。智能驾驶域是汽车智能功能的实现基石,智能驾驶域控制 器是智驾系统决策的中心。高级别的自动驾驶需处理来自摄像头、毫米波雷达、激光雷达、惯导等 的多种感知数据,需在短时间内完成整个运算和决策等,是推动L3及以上更高等级自动驾驶的核心 部件。
智能驾驶域控制器架构
**智能驾驶域控制器结构相对复杂,核心在于计算芯片。**硬件主要包括:1)计算芯片:主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合和轨迹预测等功能。2)Safety MCU:主要处理功能安全要求较高的数据,进行逻辑运算,包括处理雷达等对外接口数据、车辆规 控、通信等。3)存储芯片:对数据进行存储,包括eMMC、Nor Flash、Memory芯片等。4)其他:电阻电容等无源器件、散热组件、密封性金属外壳、PCB板、接口、网关、电源管理芯片等。软件 部分主要包括底层操作系统、中间层软件及上层应用软件。域控制器的硬件部分与ECU相似,最大 的区别在于域控制器的芯片算力更高、可以软硬解耦等,其多功能模块的实现主要依赖于主控芯片 以及软件部分的高度结合。
域控制器构成:硬件+软件
预计2025年自动驾驶域控制器市场规模达479.4亿元。我们预计智能驾驶域控制器价格将持续下降, 市场渗透率有望快速增长。1)随着智能驾驶的不断发展,智能驾驶域控制器有望高速渗透。2)目 前各个主机厂降本意愿较强,单芯片行泊一体方案受到各主机厂青睐。低成本方案如(单TDA 4/ J3 芯片)实现基础L2功能的方案预计有较大市场空间。经我们测算,2025年中国乘用车市场自动驾驶 域控制器市场将达到479.4亿元,2021-2025年复合增速达109.9%。
中国乘用车自动驾驶域控制器市场规模预测
计算芯片是智驾域控的核心部件
计算芯片直接决定域控性能。智驾域控制器主要承担汽车计算功能,其负责运算的模块主要是AI 芯片,故域控产品所使用的AI芯片的性能和数量直接决定其计算能力,目前CPU、GPU、DSP等 传统设计芯片仍是智驾域控选用芯片的主流,与此同时针对应用场景定制化或半定制化的FPGA、 ASIC等方案也在逐步发展。由于域控硬件需要算法的支撑调用,域控厂商与芯片厂商的合作开发、 生态共建同样重要。其好处在于与主流芯片厂合作紧密的域控厂商可以率先拿到先进芯片样品进行 开发,在上下游协同和产品性能上具有先发优势;同时对原有主流芯片的开发经验有代际传承,更 有利于新品开发。
智能驾驶芯片壁垒较高,芯片厂商较为集中。智能驾驶芯片具有较高的技术壁垒,现阶段市场高端 芯片以英伟达、华为为主,中低端芯片厂商较多,主要包括Mobileye、TI、地平线、黑芝麻智能等。部分厂商也积极拓展产品矩阵,高通依托早期在座舱芯片积累的优势地位,推出智驾芯片拓展市场;英伟达推出Orin-N,算力70Tops,满足中低算力方案需求。芯片国产替代的趋势也愈加明显,地平 线等国产芯片厂商市占率不断提升。根据高工智能汽车《2022年度中国市场乘用车标配L2+NOA功 能智驾域控制器芯片方案市场份额榜单》,地平线市场份额排名第一,占比达49.05%,英伟达市场 份额排名第二,占比达45.89%,二者占比总和高达95%,德州仪器、Mobileye、华为市场份额分别 位列三、四、五,占比分别为2.69%、1.97%、0.41%。
部分国内外芯片厂商
英伟达依托积累多年的图形计算处理能力、GPU计算经验,布局智能驾驶芯片。
英伟达是全球最大的智能计算平台型公司,早期专注 PC 图形计算,后重点布局AI 领域,并在独立显卡、GPU等领域卓有成就。公司2006 年开发了基于 GPU 的「CUDA」平台,实现使用GPU进行通用计算功能。公司2015年进军车载计算SOC,主要提供计算芯片和相关开发工具。英伟达产品定位偏高端,性能表现出色,其推出的Orin芯片仍是目前已量产的最高性能的智能驾驶芯片。
英伟达汽车芯片算力
**芯片方面,英伟达于2016年发布首款高级智能驾驶芯片Xavier,并于2020年实现量产。**使用CPU (8核ARM 64架构)+GPU(Volta架构)+ASIC的混合技术路线,基于台积电12nm工艺,最高 算力达30Tops。Xavier 用于德赛西威IPU03域控制器上,搭载于小鹏P5、P7等车型。英伟达2019年发布Orin芯片,于2022年量产,目前仍为已量产的算力最高的智能驾驶芯片。Orin 采用7nm工艺,集成170亿个晶体管,可提供每秒254TOPS,内置第二代深度学习加速器DLA、 第二代视觉加速器PVA。出色的计算能力使得Orin目前仍为高级别智驾方案的首选芯片,蔚来Adam 超算平台搭载四颗DRIVE Orin芯片,最高可实现1016TOPS算力,理想L9、小鹏G9等多款车型均 搭载Orin芯片。
英伟达Orin芯片架构
Thor(雷神)芯片于2022 年发布,预计2025年量产,算力高达2000TOPS,是Orin芯片算力的8 倍,主要通过CPU(Grace)、GPU(Ada Lovelace)和处理 Transformer 模型的引擎(Hopper)实 现算力提升。同时Thor可以满足汽车多个场景的算力需求,包括智能驾驶、主动安全、智能座舱、 自动泊车、车载操作系统、信息娱乐等,预计可以实现座舱域和智驾域的融合域控制。
英伟达Thor芯片
软件方面,英伟达提供DRIVE工具链和技术支持,助力芯片高效开发。Drive 工具链包含了开发工 具包Cuda、TensorRT 等各种各样的算法库、全套工具链的车载操作系统Drive OS;自动驾驶中间 件Drive Works;包含感知、定位、决策三部分的全套软件栈Drive AV;主要进行可视化渲染、驾驶 员检测、人机交互等功能的Drive IX。
英伟达Drive工具链
地平线国内智能驾驶芯片领先供应商,由国际著名机器学习专家余凯博士于2015年7月创建;2017年12月,地平线即推出了首款 智能芯片征程1和旭日1;2019年8月,宣布量产中国首款车规级智能芯片征程2并于同年10月发 布新一代AIoT智能应用加速引擎旭日2;2020年9月,推出新一代高效能车载智能芯片征程3和全 新一代AIoT智能芯片旭日3;2021年7月,推出业界第一款集成自动驾驶和智能交互于一体的全场 景整车智能中央计算芯片征程5,单芯片算力达128TOPS。
地平线征程系列芯片产品
**芯片产品布局广泛,覆盖低算力到高算力多款方案。**地平线首款车规级芯片征程2于2019年8月量 产,可提供超过4TOPS算力,实现基于征程2的单目前视解决方案。征程3芯片算力达5TOPS,是 目前仍在低算力平台上广泛使用的芯片之一。据不完全统计,自2020年9月发布以来,J3累计获得 约10家主流车企、超过40款车型定点合作,先后搭载2021款理想ONE、奇瑞 瑞虎8 PRO、奇瑞 欧萌达OMODA 5、第三代荣威RX、哪吒U-II、哪吒GT、博越 L、深蓝S7、深蓝SL03等多款车 型。其中2021款理想ONE是全球首个搭载征程3芯片的量产车型,采用双J3方案打造辅助驾驶功 能,并搭载J2的NPU计算平台实现全车语音交互。2023年4月,地平线携手大陆集团打造基于单 颗征程3芯片的800万像素智能前视摄像头一体机,可以支持1V1R(1个摄像头1个雷达)、1V3R (1 个摄像头3个雷达)、1VXR(1个摄像头,多个雷达)等多种形态的产品,实现NOA导航辅 助驾驶功能并于深蓝SL03实现首发量产。
征程3芯片性能
征程5是地平线第三代车规级产品,可提供单芯片128TOPS算力,并支持至多16路摄像头、毫米 波雷达、激光雷达等多传感器感知、融合、预测与规划需求,支持如BEV等领先智能驾驶算法模型 的应用部署。基于单颗征程5芯片打造的行泊一体域控方案,能够支持超越同级配置的高性能行泊 一体功能,同时开放上层应用的差异化开发和软件OTA升级。目前,理想L8首发搭载了征程5芯 片,实现了高速NOA导航辅助、自动泊车、自动紧急制动等功能,同时征程L5也获得了比亚迪、 上汽大众、一汽红旗、长安汽车等车企定点,并搭载于理想L系列在售Pro、Air所有车型。
征程3芯片性能
软硬件协同布局,感知算法布局深入。地平线早在2021年发布新一代征程5车载智能芯片之时,就 推出了基于征程5的纯视觉BEV感知原型方案;2023年6月,在计算机视觉领域顶级会议CVPR 上提出"感知决策一体化"的自动驾驶通用大模型UniAD,建立了以全局任务为目标的自动驾驶大模 型架构,将检测、跟踪、建图、轨迹预测、占据栅格预测以及规划,整合到一个基于 Transformer 的端到端网络框架下,并将各项任务通过token的形式在特征层面按照感知-预测-决策的流程进行深 度融合,实现了自动驾驶系统算法性能的全面提升。
**地平线为合作伙伴提供硬件参考设计及算法、基础中间件、工具链、开发平台等配套产品,助力芯 片的开发应用。**天工开物 AI 芯片工具链具有"算法仓库"(包括产品级算法、基础算法和产品参 考算法三类算法资源)、"芯片工具链"(包括量化训练工具和浮点定点转换工具)、"应用开发 中间件"(包括XStream和XProto两套应用开发框架)三大功能模块,包含模型后量化、量化训练、 编译优化和部署三大核心能力,其主要作用在芯片端,可为开发者提供从模型获得至应用部署的全 流程支持。艾迪AI开发平台则主要作用在云端,为AI开发者提供数据标注、训练、优化、部署、 管理与性能分析等工具,实现模型算法的优化与迭代;智能驾驶应用开发套件TogetherROS·Auto则 服务于智能驾驶专业开发者,集开发、集成、验证三位一体,提供支持量产开发的分层框架与接口 协议,开发者可基于标准化框架与接口进行灵活适配,同时整套接口与协议面向量产全流程,兼顾 各个软件模块,做到了可兼容、易转化,能够快速提升应用集成和验证效率,方便各模块开发者高效协作。
高通:座舱芯片领军者,智驾领域新拓展,2020 年1月,高通发布自驾平台Snapdragon Ride,其主要面向三大细分方向:L1/L2级ADAS,面 向具备AEB、TSR 和 LKA等驾驶辅助功能的汽车,提供30TOPS算力;L2+级ADAS,面向具备 HWA、自动泊车APA以及TJA功能的汽车,提供60~125TOPS算力;L4/L5级自动驾驶,面向在 城市交通环境中的自动驾驶乘用车、出租车和物流车,可提供700TOPS算力。2023 年 1月高通发布第二代Ride升级版Ride Flex芯片,包括Mid、High、Premium三个级别,主 打舱驾一体,既能用于车内座舱,又可以实现辅助驾驶的可扩展系列SoC,算力最高可达2000Tops。其从设计之初就是一个开放且可编程的平台,能够满足从新车评价规范(004ECAP)到 L2+/L3级别 驾驶辅助和自动驾驶全方位的需求。同时,面向视觉、中央计算和高性能自动驾驶需求,Ride Flex 还提供可扩展SoC处理器和加速器产品组合,基于Arriver的一站式视觉软件栈,支持从单个摄像头、 800 万像素前置摄像头,一直到多达11个摄像头的解决方案,其支持主机厂和Tier1利用Arriver驾 驶策略解决方案打造自己的驾驶策略、泊车或驾驶员监测软件栈和导航功能。
生态合作方面,宝马集团、长城汽车、通用汽车、大众集团、雷诺集团、Stellantis集团、阿斯顿·马 丁、吉利汽车、比亚迪汽车、沃尔沃汽车、梅赛德斯-奔驰、极星等整车厂商都与高通达成了合作, 采用Snapdragon Ride 平台打造ADAS和AD解决方案,并且国内首个搭载Snapdragon Ride的车型 魏牌摩卡DHT-PHEV激光雷达版已实现量产上市。不止整车厂,均联智行、毫末智行、畅行智驾、 纵目科技、诺博科技、德赛西威等Tier 1厂商也在与高通持续协作,基于Snapdragon Ride平台,共 同为下一代汽车开发安全、高效的ADAS/AD系统。
**Mobileye 是全球领先的智能驾驶芯片解决方案提供商。**2004年公司发布了第一代芯片EyeQ1,随后 迅速与宝马、通用等汽车制造商达成合作。经过多年的发展,Mobileye相继推出了Eye Q1-Q6等多 款ADAS芯片,并为OEM厂和Tier 1厂商提供了"芯片+算法"软硬一体化的ADAS视觉解决方案。Mobileye 智驾方案为"黑盒"方案,提供软硬一体的交钥匙方案,不单独出售芯片或算法。虽然黑 盒方案定制化程度极为有限,但对于开发实力相对薄弱的中小主机厂来说,产品成本低、开发周期 短,且多数功能经过验证,因此Mobileye的"黑盒"模式仍具有一定受众。此外,Mobileye也在一 定程度上逐步提高其编程开放性,2022年6月新推出的EyeQ Kit从黑盒走向合作,能够大幅降低车 企的开发成本,加快下游产品的开发周期。
芯片领域,EyeQ系列芯片目前已推出多代产品,算力由最初的不足1TOPS到176TOPS,其中EyeQ Ultra 作为公司的最新产品,计划2025年开始量产。Mobileye于2016年发布EyeQ5芯片,并与2021 年开始量产,搭载车型为极氪001和宝马iX。芯片基于台积电7nm FinFET工艺,EyeQ5 High可实 现15TOPS算力,EyeQ5 Mid也可超过4TOPS。EyeQ5采用专有的计算内核,针对包括深度神经网 络在内的各种计算机视觉、信号处理和机器学习任务进行了优化。同时,EyeQ5 开始提供完整的软 件开发套件(SDK),允许客户通过在EyeQ5上部署算法来区分其解决方案。作为可扩展的纯视觉 感知摄像头的计算基础,EyeQ5 由多个独立的计算机视觉引擎和用于算法冗余的深度网络组成,可 实现端到端的自动驾驶,这也是业内首个支持120度800万像素摄像头的解决方案。2022 年 1月在国际消费电子展(CES 2022)上,Mobileye连续发布EyeQ Ultra\EyeQ6 L\EyeQ6 H 三款芯片,并计划于2024年、2025年开始量产EyeQ6两款芯片和EyeQ Ultra。EyeQ Ultra是专为 端到端自动驾驶而打造的单封装自动驾驶汽车集成芯片超级计算平台,基于5nm制程工艺,算力达 176TOPS。EyeQ 6 芯片基于台积电7nm FinFET工艺,最高可实现34TOPS算力。EyeQ6 Lite是一种经过优化的一体式前风挡解决方案,旨在以较低功耗和高效率提供入门级和高级驾驶辅助系统 (ADAS)功能。同时宣布的EyeQ6 High将支持高级驾驶辅助系统功能,并具有可扩展到"视线脱离/解放双手"的控制功能。
芯片开发和生产制造能力仍为核心竞争力
厂商加速布局,智驾域控制器厂商竞争激烈 域控制器设计生产合作模式多样。目前,域控制器设计生产主要包括主机厂委托代工域控制器、Tier1 供应商为主机厂提供域控制器生产、Tier1.5主攻域控制器基础软件、Tier0.5全栈参与四种模式。具体来看:模式一:主机厂委托代工域控制器。该种模式下域控制器的设计和研发由主机厂负责,而供应商负 责域控制器的硬件制造,即外包域控制器,如特斯拉由广达及和硕进行域控制器代工、蔚来由Wistron 及伟创力代工。模式二:Tier1供应商为主机厂提供域控制器生产。该种模式是目前主流的业务模式,不同类型的企 业根据自身优势进行分工合作,芯片供应商、Tier1供应商和主机厂深入合作,芯片商提供芯片、开 发软件栈和原型设计包,Tier1提供域控制器硬件生产、中间层以及芯片方案整合,如德赛西威与英 伟达及小鹏/理想/智己深入合作、极氪与Mobileye及知行科技达成合作等。模式三:Tier1.5 主攻域控制器基础软件。该种模式下 Tier1.5 连接产业链上下进行开发,能够适应 软硬件分离的趋势,向上支持主机厂掌控系统的自主开发权,向下整合芯片、传感器等Tier2的资源, 如TTTech与上汽旗下联创汽车电子合资成立的创时智驾等企业。模式四:Tier0.5全栈参与。该种模式下供应商与主机厂深度绑定,参与主机厂域控制器的研发、生 产、制造等环节。
**国内外厂商纷纷布局智能驾驶域控制器领域。**现阶段,智能驾驶域控制器参与者主要包括四类:1.Global Tier1 供应商系统集成能力较强,具有客户群优势。2.本地Tier1供应商致力打造全栈解决方 案,与 OEM 深度合作。3.自动驾驶域控制器软件平台厂商以软件切入,实现通用和模块化平台。4.OEM 厂商期望自研域控制器甚至芯片以掌握底层硬件自主权。
智能驾驶域控制器供应仍以国内Tier 1厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研发积累、资金限制及自身销量等问题,自研难 度大、成本高,不一定有足够的销量来摊薄前期研发成本,故大多数厂商仍以采购Tier 1厂商产品及方案为主,自身参与到开发中,一方面积累相关技术,另一方面优化软硬件协同效果。国内主流 Tier 1 有华为、德赛西威、经纬恒润等企业,均胜电子、中科创达、大疆、东软睿驰等快步追赶,占 据一定市场份额;国际Tier 1大陆集团、博世、采埃孚等均有所涉及,但进入L2+级自动驾驶以后, 国际Tier 1厂商开始逐渐落后于国内Tier 1厂商的发展步伐。华为:智能驾驶全栈解决方案供应商 作为国内Tier 1厂商中较少能够提供智能驾驶全栈解决方案的企业,华为智能驾驶产品线非常丰富, 综合实力强。华为MDC产品经过数年发展,已覆盖多场景自动驾驶平台需求,其使用同一套软件, 同一个硬件架构,方便进行软件和硬件的迭代升级。目前全系列共有4件产品:MDC300F用于矿区、 港口、园区、高速物流等车辆;MDC210主要用于中低端车的铺量;MDC610用于高端车拉升品牌;MDC810 用于Robotaxi 或高级别的自动驾驶,其采用昇腾620芯片,算力高达400+TOPS。
**华为MDC平台性能强大,功能安全,提供开放的生态和多种开发工具。**华为MDC810性能强劲算 力达400TOPS。具备用户态分布式OS内核,调度时延<10us,平台级时延<40ms。其异构计算能力 能针对不同环节提供不同的算力类型和大小,更精准地满足算力需求。此外,华为 MDC 具备面向 L4 的高安全架构,通过了信息安全、功能安全、车规级测试、软件成熟度认证、极端工况测试等多 项检验。同时,华为 MDC 基于标准化和平台化的设计理念,实现软硬件解耦,提供丰富的传感器 接口、全场景覆盖的工具链、100+标准的API和开放的SDK,支持与线控底盘接口对接、支持软件 开发和移植、支持不同级别自动驾驶的功能要求。华为也提供完整的开发工具链,帮助客户和生态 伙伴提升开发效率,完善华为MDC生态构建。华为于2021华为智能汽车解决方案生态论坛提出,截 至2021年底已有70余家生态合作伙伴,联合拓展乘用车项目超6个,商用车/专用车项目超11个。
华为MDC提供了MDC工具链、MDC Core SDK和车云协同开放平台等开发者套件,很好地提升 了开发效率。MDC工具链含有AI集成开发环境Mind Studio、AP配置工具MMC、集成开发环境 MDS、标定诊断工具MCD、可视化调测工具MViz,覆盖自动驾驶应用的研发、调试、部署、运营 全生命周期。MDC Core SDK加速开发效率,支持TensorFlow、caffe等主流AI框架,支持1000+ 主流算子,开放100+API 接口。云端提升提供数据、场景、训练、仿真服务,加速车云数据闭环, 有20万+场景库和2000万+数据集,大幅提升训练和仿真效率。
德赛西威专注于人、机器和生活方式的整合,前身为1986年成立的中欧电子工业有限公司,迄今已 有30多年汽车电子产品制造经验,制造工艺覆盖汽车电子产品生产全流程,公司为智能座舱、智能 驾驶以及网联服务提供创新、智能的产品解决方案,与大众集团、马自达集团、吉利汽车、长城汽 车、广汽集团、小鹏汽车、理想One等国内外汽车制造商建立了良好的合作关系。德赛西威智驾产品全面丰富,满足客户多层次产品需求。公司与英伟达深入合作,智能驾驶域控制 器产品经过IPU01-04四代迭代已形成丰富产品矩阵,能够满足从高性价比到高性能多层级市场需求。IPU01 是德赛西威最早量产核心产品,主要用作环视及泊车控制器,出货量已超百万套;轻量级智 能驾驶域控制器IPU02已进入上汽、长城、通用以及造车新势力等车企配套体系,适配国内中低价 格带这一最大细分市场,能够在有限成本范围内提供一定的智能驾驶功能;IPU03/04是高性能方案, 基于英伟达 Xavier 芯片的 IPU03 已在小鹏 P7 上量产,基于Orin芯片的高算力平台IPU04已通 过ISO/SAE 21434 体系认证并在理想等客户上实现规模化量产。受益于英伟达芯片的强大算力以及 自身优秀的量产能力和规模化优势,公司持续拓展产品矩阵和客户群体,伴随着国内 L2、L2+级 ADAS产品渗透率的快速提升,公司智能驾驶域控制器有望迎来爆发式增长。
智驾域控制器与英伟达深度合作,带来高硬件性能及先发优势。IPU03/IPU04 依托于英伟达芯片的 高度计算能力,产品性能表现出色。2020年,德赛西威首款基于NVIDIA Xavier芯片的IPU03自动 驾驶控制平台量产,能够应对 L2 级别的全速域 ACC 自适应巡航、车道居中、车道偏离预警等功 能;作为德赛西威拳头产品的 IPU04,在算力、性能、端口、成熟度等方面有了跨越式发展,基于 两颗Orin 芯片,其总算力已达到 508TOPS 并可根据车企需求最高可拓展至 2000TOPS,算力高出 IPU03 的 7 倍以上,满足当前L2甚至L3级算力需求;具备更丰富的接入端口,最高可接入16路 高清摄像头,5个毫米波雷达,12路超声波传感器,以及1-3个激光雷达。
高端智驾域控领域具有先发优势,合作开发能力较强。1992年公司已建立智驾研发团队,近年来研 发费用占营收比重持续超过10%,同时公司与英伟达合作较早,开发的域控硬件和中间件等产品能 够较好匹配底层芯片,充分发挥其效能。德赛在打造域控产品平台化实现快速复用的同时,依靠快 速设计、验证、量产的经验和能力,针对车企不同车型空间结构设计差异、算法差异等进行相应适 配满足车企定制化需求,使公司相对于通用产品供应商竞争优势明显。
大批量量产制造经验带来质量、成本、设计上的护城河。德赛域控产品历经四代迭代已形成丰 富产品矩阵,具有量产经验,IPU03、IPU04 大规模搭载小鹏 P7、理想 L9 等旗舰车型,高搭 载率和车型销量充分证实域控产品的可靠性。同时德赛西威作为目前中国市场主要域控制器供 应商,市占率较大,芯片采购量相比其他主机厂和Tier 1更多。大批量采购能带来一定的价格 优惠,在芯片的供应端具有成本优势。同时对于很多共用的芯片和零部件可以大量备货,在部 分客户芯片等零件结构性短缺时候可以串货,缓解客户供应端的压力。此外,德赛西威依托其 市场地位,在与上游供应商合作时有更高的话语权,与部分芯片厂商有定制化产品,弥补通用 芯片上的不足,使其产品更有竞争力。同步布局传感器和智驾算法,域控产品协同优势明显。公司积极开展智能驾驶领域多维度、多渠道 的协同共创,积极拓宽传感器、智能天线、算法等领域布局,提供平台化域控产品和系统级智能驾 驶解决方案,进一步增强公司产品整体适配度和综合竞争力。传感器方面,已在智能驾驶相关传感 器和T-Box方面获得市场领先地位,目前公司高清摄像头、ADAS摄像头已实现规模化量产,毫米 波角雷达、BSD 雷达均在多个客户量产应用,同时 4D 及国产化雷达方案已完成产业技术布局;5G+V2XT-BOX+智能天线方案已顺利在上汽通用、红旗等客户上实现规模化量产,并在 2022 年获 取国内头部OEM多款车型的出海业务。自动驾驶算法领域,公司全方位布局 L1 泊车至 L4高级智能辅助驾驶算法,通过自研+对外投资合 作模式寻求产品快速突破;同时由于和英伟达的长期合作开发,德赛对Orin芯片的定制算法理解独 到,可以为下游整车厂提供底软技术支持,使其具备更好的竞争优势。公司通过上述全栈布局形成 智驾域控领域全套解决方案,打造出"智驾域控制器+传感器+软件算法+5G-V2X"产品矩阵,协同优 势明显。
**经纬恒润:高性价比智驾方案供应商,智能驾驶研发起步早,具备不同等级解决方案。**公司自 2010 年起投入研发智能驾驶产品,经过持续 产品创新,目前已形成ADAS+ADCU+HPC的完整平台化产品解决方案系列,能够满足不同等级智 能驾驶功能需求。公司前向 ADAS 系统是公司智能驾驶业务的核心产品,该产品整合了 Mobileye EyeQ4 芯片和Infineon AURIX ™高算力平台,实现了自适应巡航控制、车道保持辅助等多项功能。2016 年,公司自主研发的先进辅助驾驶系统(ADAS)量产配套上汽荣威RX5,实现公司自动驾驶 产品首次量产的同时打破了国外零部件公司在该领域的垄断地位。截至 2021 年 ADAS 产品已配 套或定点的车型超过 100 款,客户主要为一汽集团、上汽集团、中国重汽、吉利汽车等整车厂商。
智能驾驶域控制器(ADCU)是经纬恒润设计研发的集成式高性能计算单元。ADCU基于 Mobileye EyeQ4 及 Infineon TC-297TA 芯片,能够实现自动驾驶等高级别自动驾驶功能,支持毫米波雷达、 激光雷达、高精地图等信息接入;同时在ADCU基础上,经纬恒润将智能驾驶域控制器和自动泊车 域控制器进行融合,面向 L2+级智能驾驶要求,推出了一系列低成本、中低算力的行泊车一体解决 方案,很好地契合了市场需求;并且在ADCU硬件基础上,经纬恒润可以提供自主研发的自动驾驶 功能,或集成第三方研发功能,为用户量身定制系统级自动驾驶解决方案。
智能驾驶高性能计算平台持续投入。2023年3月,公司基于NXP新一代多核异构SoC高性能平台 开发的中央计算平台(CCP)发布,该产品实时控制核采用Classic AUTOSAR软件架构,方便多方 软件联合开发和部署、高性能计算核基于商用Linux + Adaptive AUTOSAR软件架构,提供整车全量 数据采集、整车OTA升级、SOA服务等功能,支持整车厂用户持续快速迭代应用软件,使得产品 能够提供中央网关、车身及舒适控制、新能源整车动力控制、整车全量数据采集、SOA 车控服务、 边缘计算等功能,满足 ASIL-D 功能安全等级要求。同时支持公司自研或客户定制的人工智能感知 算法、路径规划和控制方案,实现在高速公路、城市道路、停车场等场景下安全、精准、稳定的自 动行驶。该产品目前已配套滴滴、合众汽车、一汽解放等客户。
积极开拓单车智能解决方案,产品协同效应显著。经纬恒润智驾产线具备向上集成完整智能驾驶方 案的软硬件产品基础,是目前国内少数能够提供智驾全栈式解决方案的供应商,其智驾解决方案中 智驾算法、摄像头、毫米波雷达、智能网关控制器、高精定位系统等域控核心配套产品均为自研。感知端,车载摄像头、毫米波雷达产品种类丰富,车载摄像头搭配先进的ISP图像处理算法,能够 在各种复杂光照环境下给予驾乘者高质量视觉体验,同时大幅提升感知算法的识别速率和准确率, 目前已广泛应用于广汽、吉利、红旗、一汽等整车厂的主流车型。最新LRR610 4D成像前雷达具备 水平和俯仰高分辨能力(1.25°×1.7°)、超远距离探测能力和丰富的点云信息(单帧点云>10K)。
平台工具和方法流程布局全面。为保证AI感知算法的可靠落地,公司自研了一整套平台工具和方法 流程,其AI算法通过挖掘深度神经网络在数据表达方面的能力,具有实时性好、检测准确、鲁棒性 好等特点,目前已经应用在多个园区自动驾驶示范项目中,同时也在智能化港口项目中得到了充分 的应用和验证;同时公司高精定位模块LMU可以实现道路级定位,支持L2+自动驾驶,能够准确持 续提供前方道路的曲率和坡度信息,支持DOTA/FOTA升级,目前已应用于上汽、红旗、长城等客 户车型。通过上述协同布局,公司形成的系统级智能驾驶解决方案技术自主,能够充分发挥协同效 应进一步降本增效,为客户提供更高性价比智驾产品。
中科创达:领先的智驾操作系统供应商
完善产业协同布局,发力智能驾驶赛道。中科创达以智能操作系统为核心,聚焦场景需求,持续布 局智能驾驶领域。在低速智能驾驶领域,中科创达已经构建了从AVM(全景环视系统)、XPA(智 能泊车)到AVP(无人代客泊车)的全链路产品、技术与解决方案,实现了智能座舱与低速驾驶的 融合创新。此外,在域控算力平台领域,中科创达子公司畅行智驾基于在操作系统及实时中间件领 域的技术优势,为全球客户提供行业领先的智能驾驶域控产品和开放的智能汽车HPC软硬件平台。
公司利用自身技术积累,积极布局智驾相关操作系统和云端平台。目前公司正在开发 ThunderAuto 智能网联汽车操作系统和智能驾驶辅助系统 SmartDrive。该智能驾驶辅助系统包含硬件抽象、软件 开放、端云服务、场景落地等四大平台,客户可以用其开发ADAS产品、应用和系统,降低开发复 杂度、周期和成本,有望解决目前ADAS系统各自为政、软硬不分离、集成成本高、迭代演进难等 问题。
携手高通、立讯精密,智能驾驶域控制器已取得初步成果。2022年中科创达自动驾驶子公司畅行智 驾获高通创投、立讯精密投资。2022年9月,基于Snapdragon Ride SA8540P芯片,畅行智驾开发 了旗下首款智驾域控RazorDCX Takla,提供60TOPS算力、12路相机最高像素8M Pixels的接入能 力,并预留多路CAN/CANFD 接口,提供8路车规级以太网接口,满足自动驾驶对传感器接入的需 求,具备高性价比优势,实现全时中阶行泊一体,可广泛应用于低速泊车智能驾驶、高速公路智能 驾驶、城区智能驾驶以及封闭园区智能驾驶等诸多场景中。2023年4月,发布基于Snapdragon Ride 平台的高阶智驾控制器RazorDCX Pantanal,采用4nm SOC, 集成Snapdragon Ride™视觉软件栈,单芯片算力达50-100TOPS,可同时支持基础配置7V5R12USS 与高阶配置11V5R12USS 接入,并预留多路 CAN/CANFD 接口,提供 8 路车规级以太网接口,满 足不同等级智能驾驶对传感器接入的需求。实现记忆泊车、L2.9 级高速公路自动驾驶及 L3 级城区 自动驾驶,并可拓展至L4级无人售货车、矿山、自动清洁车等封闭园区自动驾驶。其具有可拓展性 强、功能安全性高、应用场景广等特点,满足从入门级到旗舰级车型对智驾域控的不同需求。
**大疆:低成本NOA方案优质供应商。大疆依托视觉技术深厚积累,推出新一代智能驾驶解决方案。**2023年4月,大疆车载公布了全新一 代智能驾驶解决方案,该方案以低至32TOPS的算力,7V/9V的纯视觉配置,通过"强视觉在线实时 感知、无高精地图依赖、无激光雷达依赖"实现了包括城区记忆行车(32TOPS)/城区领航驾驶(80TOPS) 在内的 L2+智能驾驶功能。同时,该纯视觉辅助驾驶系统也支持扩展毫米波雷达、超声波雷达、激 光雷达、高精度地图等传感器,增强系统的安全冗余。该方案基于当前对智能驾驶系统成本约束,结合当前智能车电子电气架构演进水平,以及中国市场 对智能驾驶真实需求,具备算力门槛低,算法扎实、功能丰富、传感器配置简洁高效、可拓展性强 等特点,方案支持扩展算力至200TOPS,提升了高速领航与城区领航等高阶L2+功能的舒适体验, 目前,该智驾解决方案目前已处于可用状态,正与合作车企积极推进量产。
**均胜电子持续发力智能驾驶系统,多渠道布局智驾域控。**均胜电子加快研发新一代高算力智能驾驶 域控制器产品,2022年8月,子公司均胜科技获得与国内某知名整车厂关于自驾高算力域控平台的 联合开发,公司基于英伟达Orin芯片,为客户提供一款双Orin系统架构的高算力域控平台(AD域 控制器),可以实现L2++高速公路及城市情景NOA功能、AVP代客泊车功能,并计划于2024年 开始量产;2023年5月,旗下子公司均联智行发布全球首批基于高通Snapdragon Ride第二代芯片平 台的自动驾驶域控制器nDrive H,芯片算力高达200TOPS,基于软硬件深度融合的行泊一体设计, 支持L2++到L4级别自动驾驶全场景功能,实现HPA、NOP、HWA等自动驾驶场景。同时其双芯 片结构可提供同级别全冗余平台的最优性价比解决方案,在散热处理上提供行业领先方案,高配版 本采用水冷散热设计,低配版采用风冷设计,较好解决散热问题。
同时,公司与地平线、黑芝麻等国内各芯片厂商建立合作关系。2021年8月,均联智行与黑芝麻智 能签署战略合作协议,双方依托各自优势资源,在自动驾驶计算芯片、前瞻技术联合预研及智能汽 车平台化等业务领域展开深度合作,重点围绕自动驾驶域控制器进行协同开发;2023年5月均联智 行与地平线达成战略合作,地平线将提供以"芯片+参考算法+开发工具"为基础的智能汽车解决方案, 包括车规级芯片、车载计算平台、视觉感知、人机交互等。均联智行基于自身车规级自动驾驶技术 积累,与地平线共同推进高级辅助驾驶(ADAS)、自动驾驶、智能人机交互等领域的产品开发, 加速自动驾驶解决方案的量产;同时公司依托公司智能汽车技术研究院在人工智能的技术储备和前 瞻研发优势,加快研发新一代高算力智能驾驶域控制器等产品,目前在此领域已获批及在批专利逾 50 项,涵盖自动驾驶域控制器结构、路径规划、车辆控制、数据存储等;公司和国内外多家整车厂 商共同推进基于不同芯片平台的智驾域控、驾舱融合域控及中央计算单元等项目的研发,部分项目 已顺利完成A样的开发和POC(验证测试),为公司后续获取客户量产项目的定点提供坚实支撑。
**东软睿驰发力行泊一体域控,实现全链条国产化打通。**东软睿驰基于地平线征程5、芯驰科技X9U 系列芯片,构建了国内首个全国产自动驾驶域控制器平台,实现国产化芯片、算法、软件、硬件从 研发到量产应用全方面全链条打通。同时,基于该平台打造的高性能行泊一体域控制器 X-Box 4.0 面向L2++级别自动驾驶,配置地平线征程5、芯驰科技X9U系列芯片,单芯片算力达到128TOPS, 可提供高速(NOA)、记忆泊车(HPA)、智能巡航(ICA)、遥控泊车(RVM)等40余项功能, 支持8M摄像头、4D点云毫米波雷达和激光雷达、DSI3超声波雷达的接入,能够有效实现对各类 异形和未知障碍物的精准感知和避让。面向跨域融合时代,基于全国产化大算力单芯片,东软推出多域融合域控制器 X-Center2.0,采用 SOA设计理念,通过自研软件架构的强大算力支撑,支持以太网接口、多屏输出以及处理多路CAN 数据的接入和转发等,大幅度减少整车开发复杂度,不断扩展整车智能化性能,实现从"域控"到"中 央计算"的跨越。
截至目前,市场上出现大量行泊一体智驾域控产品,除上述案例以外,其余厂家如地平线推出了与 金脉联合开发的自动驾驶域控制器产品Horizon Matrix® Pilot 3.0;黑芝麻推出智驾解决方案BEST drive;宏景智驾推出 ADCU 高级别自动驾驶域控;同时国际厂商大陆集团、博世、采埃孚等传统 Tier 1 巨头也在发力智驾域控产品,或通过自研、或通过成立合资公司联合开发以谋求一定的市场地 位。但由于智驾域控产品技术集成度高,投入巨大且产业上下游协同壁垒高,新晋厂商以及传统国 际巨头面临技术成熟度不足、产品工程、转型困难等问题,短期内仍难以形成有效市场竞争力。我们仍较为看好以德赛西威、华为为代表的国内主流Tier 1厂商,其具备技术领先优势、规模化量产 优势、客户覆盖度广优势,并且能够充分发挥上下游协同优势深入参与主机厂产品研发过程,精确 理解用户需求并不断完善自我产品生态,预计在将来仍会保持较大的市场份额。
少数头部主机厂选择自研+代工模式 车企对于坚持智驾域控自研的考虑,无外乎成本、核心技术及供应链稳定、产品亮点和差异化等几 个因素的考量。根据 HiEV 大蒜粒车研所测算,从资金成本考虑,当前智驾域控中硬件占总成本的 比重约为60-80%,软件占比约为20-40%,以主营业务为智驾域控的知行科技为例,其雇佣员工200 人左右,近三年合计研发投入近2亿元,从时间成本上考量,小鹏从官宣自研到落地G9大致花了 两年时间,因此如果能将硬件乃至整个域控方案掌握在自己手里,将有效降低车企成本提升产品竞 争力;同时如果车企意图将智能化打造为自身标签,自研与车型更为匹配的域控产品将会是更好选 择,自研域控将会提高系统的软硬件协同能力并减少芯片算力耗费,同时车企将拥有完整的开发工 具链,在算法升级、驱动更新上将更为及时。因此,对于有一定实力和愿景的车企而言自研域控无 疑具有很强的吸引力。自研智驾域控系列产品具有裨益的同时也会带来巨大成本耗费。根据南方日报报道,2023年上半年 中国市场约20%的头部企业市场占比超过90%,在汽车市场竞争愈发激烈的当下,大部分厂商稳定 销量难以保证,相对主流Tier 1厂商而言其自研域控成本---收益比较低甚至不能覆盖成本;同时自 研域控的时间成本和缺乏经验带来的技术问题难以短时间内解决;域控的规模量产商用和与之相关 的软件生态形成也很难依靠一家自研而成。虽然理论上自研极具优势,但主机厂前置成本较高并且 难以依靠车型销量制胜,有意愿自研的厂商仍为少数。
对于规模巨大的极少数头部厂商而言,自研优势明显。将域控技术掌握在自己手里不但可以控制整 体成本也可以确保核心技术及产品供应链稳定;其次自研与车型更为匹配的域控,将有助于车企打 造差异化竞争力,定制更多个性化功能,使需求与研发结合更为紧密,从长远来看将会提升车企核 心竞争力。而外购或合作开发对于众多中小厂商或许更为友好,中小厂商自研能力薄弱并且车型销 量不足以覆盖自研成本,但依托成熟的供应链系统,中小厂商可以在有限的预算范围内,快速、低 成本外购相对高性价比的整体解决方案,使产品实现一定的智能驾驶功能并满足中低端自动驾驶需 求。长期来看,我们预计"极少数高端主机厂自研+主流Tier 1供应"的产业格局将长期存在,以华 为、德赛西威为代表的研发实力强劲、量产规模大、质量有保障的各Tier 1厂商仍将占据供应链核 心地位。
特斯拉:智能驾驶全栈自研领导者
做为智能驾驶全栈自研的先驱者和领导者,特斯拉技术优势明显。特斯拉于2020年正式推出其全栈 自研智能驾驶解决方案FSD,实现了从芯片开发到底层架构到软件开发的整体编辑能力。硬件系统 HW3.0基于特斯拉自研FSD芯片,算力达到144TOPS, 该芯片采用三星14nm工艺,包含12个 CPU、 1 个 GPU、2 个神经处理单元、以及其他硬件加速器,能够实现自动泊车、智能召唤、自动辅助导 航驾驶(NOA)、自动变道、交通信号识别、停车标志识别、城市道路自动辅助等高阶智驾功能;同时在域控算法端,特斯拉也具有领先优势,其率先应用神经网络系统HydraNet、BEV+transformer 感知算法、占用网络技术、数据处理融入时序特征、图像特征级融合等方案,提升了智驾系统感知 精确性、复杂环境鲁棒性,至今仍为行业标杆。根据推特博主"greentheonly"拆解最新 Model Y 和最新首发 Model S/X 情况来看,新一代 HW4.0 已搭载北美地区Model X/Y等高端车型。其搭载了第二代FSD芯片,采用4nm工艺;CPU核心增 加至20个;GPU、TRIP核心增加至2个;具有3个NPU核心,使用32 MB的SRAM,用于存储 模型权重和激活,预估综合性能将为当前芯片3倍左右。传感器方案也有一定改进,在坚持视觉方 案的同时,新增一个4D毫米波雷达做为安全冗余,提升感知系统的精准度和安全性。
HW4.0
小鹏:域控自研+代工模式,软硬件更加适配域控硬件自研设计,有效提升软硬一体化水平。
2020 年小鹏发布搭载有自研智驾系统 XPILOT 的 P7,该车型智驾域控为德赛西威研制,基于英伟达Xavier芯片的自动驾驶域控制器IPU03,算力达 到30TOPS。同时,小鹏也开始启动智驾域控自研并在G9上实现量产,形成以"X-EEA电子电气架 构+XNGP智能驾驶辅助系统+Xmart OS车载智能系统"为核心的智能驾驶生态。通过对域控方案自 研设计,软硬件一体化程度有效提升,二者可以更好适配,明确软件开发边界,提升硬件利用率。
自研智驾系统XNGP表现出色。其基于英伟达Orin芯片的第二代智驾系统XNGP于23年3月正 式发布。作为"重感知、轻地图"技术路线的代表,完全形态的XNGP将具备全场景智能辅助驾驶 能力,在全国各个城市都能无缝连接高速、城市、地下停车场等各种场景,实现端到端的城市NOA 辅助驾驶体验。其包含的新一代智驾域控基于2个英伟达Orin芯片,总算力达到508TOPS,搭配 31 个传感器,能够实现智能导航辅助驾驶、全场景智能辅助驾驶、VPA-L停车场记忆泊车增强版等 高阶智驾功能;域控感知算法层面,自研XNet深度视觉神经网络,凭借超强的环境感知能力,XNet 能够将多个摄像头采集的数据进行多帧时序前融合,输出动态目标物的4D信息及静态目标物的3D 信息,大大提升智能辅助驾驶,尤其是面对城市复杂场景时的感知、预判、决策、执行的能力和效 率,并且借由小鹏"扶摇"超算中心算力,使得动态XNet的训练时间由过去的276天缩减到11小 时,效率提升超过600倍。
小鹏XNGP智能辅助驾驶系统 小鹏XNet视觉感知神经网络
.
#理想~端到端
其实看见李想和蔚来那俩老大就感觉恶心可笑
半年全切换,全场景无图自己开
一夜间,理想也端到端了。
智能车参考获悉,本月理想完全自研的端到端智驾系统,已完成千人内测。
顺利的话,不用等到年底就会全面覆盖所有MAX车型用户。
这是理想第一次公开端到端上车进展,从之前尾随追赶华为、小鹏,一举实现齐头并进,效率惊人。
技术上还更加纯粹:One Model,没有任何对旧技术体系的妥协或改良。
更加惊人的是,理想自动驾驶研发一号位郎咸朋 告诉我们,整个技术路线的切换、上车验证、量产准备,只用了半年时间。
能用吗?敢用吗?智能车参考率先替大家体验了一番。
理想做出了什么样的端到端
在体验之前,理想智驾产品经理特意向我们介绍了测试路线的"含金量":
路线是选定好的,围绕理想位于北京顺义的研发中心,全程20多公里大约40分钟。
远离市中心但工厂企业很多,晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有,完全真实。
虽然路线选定,但场景下变量随机。
整体体验下来,顺义路况还是比北京市区轻松得多,没有严重的堵车、加塞,车道线清晰度和路面宽度也比市区好得多:
良好路况下理想端到端的体验,几乎和智能车参考前两天为大家介绍的理想6.0"无图NOA",没有太大区别。
但在特定的复杂工况和博弈场景下,端到端优势就十分明显了。
比如在一个左转路口,旁车道的车突然抢跑别车:
理想端到端系统,采取了快打方向、紧急避险动作,而不是突然刹停提示接管。
"避让"显然是比"刹停退出"更安全、更负责任的行为,而且也符合人类司机在相同情况下的会采取的行动。
再比如,路上我们遇到了一辆停在路上下客的公交车,而同时,对向车道又有一辆驶来的大卡车。
理想端到端给我们秀了一把"艺高人胆大",直接在两个大车夹缝中完成了一次极限穿越:
对于可通行空间的精准判断和车控的细腻程度,已经超越了人类老司机。
但这样的策略是否必要?会不会给用户带来不必要的心理压力?可能还需要再斟酌讨论。
理想的解释是,现在的端到端还在测试,驾驶行为的偏好取向还要更多数据和测试反馈来决定,不代表量产实际情况。
第三个让人印象深刻的场景,是在一条主干道和乡村小路的右转博弈:
挑战是多方面的,首先这是个直角弯,对于大型SUV来说操作空间十分有限。其次路面有很大的坡度,车辆俯仰会影响传感器的朝向和数据质量。
最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈:
整个过程沉着冷静,没有任何多余的刹车、加速或是方向调整。
理想特别强调了"拟人"的优势:没用端到端的智驾,也有概率能通过,但博弈过程可能是"前倨后恭",想过又不敢过,整个过程反复刹车、提速。
最后再来看一个十分有趣的场景。
路过学校时,理想同学会给用户播报"现在路过学校,速度降至XX"。类似的,对于路上可能会影响驾驶行为的突发事件,理想同学现在都会播报。
难道是背后用高精地图开天眼?
NoNoNo,这其实是理想端到端智驾的独特优势:
车端2个系统,一个是端到端AI司机,另一个是视觉语言模型VLM。
端到端负责感知、决策、规划,是AI司机的主体。并且理想端到端不同于华为、小鹏,采用更直接的One Model结构,不分层:
输入传感器数据,直接输出自车行驶轨迹。
One Model典型玩家是特斯拉,国内的商汤绝影UniAD也选择了这条路线,同样也走到了量产前夜。
至于VLM,本质是一个多模态大模型,作用是智能驾驶"点读机",哪里不会点哪里,利用大语言模型的认知能力理解场景,输出另外一条行驶轨迹给端到端模型参考修正。
为啥要这么做?理想解释因为端到端模型尽管直接学习人类成熟驾驶经验,但黑盒决策过程不为人知。对于目标的错检漏检,以及幻觉问题难以通过直接调参解决。
所以要加这么一个"点读机",以及适当的强化学习手段来规范端到端模型的行为。
总结一下,理想用半年时间干出了这样一套即将量产的端到端智驾技术:
最大的不同点是没用国内主流的多段式结构,而是和特斯拉One Model一样一步到位,而且也是国内量产进度最快的。
但理想和特斯拉不同的点又在于,选择用语言模型为基础的多模态模型作为认知能力的补充,和小鹏、蔚来、商汤等等玩家相同。
以及还有一点,端到端模型参数量4-5亿,VLM总参数量22亿,完全能在现有Orin芯片的理想各个MAX车型上实现车端部署。
理想怎么做端到端
简要的说,理想端到端"方法论"有三个组成部分:
一是找对老师,二是理顺架构,三是舍得砸钱。
理想自己形容新的智驾技术体系为一快、一慢。
快的是端到端模型本身,应对实时驾驶任务;慢的则是VLM大模型,用来学习常识,应对未知路况,比如潮汐车道等等。
分别来自两个"老师":端到端摸着特斯拉过河,VLM则取法谷歌机器人系统 RT-1 和 RT-2。
这是理想认为的现在最可行的端到端量产模式,集各家之长。
自己是"踩在巨人的肩膀上",躲了前人掉过的坑,才能在半年内完成端到端技术切换和量产准备。
理想尤其强调了特斯拉的先驱作用,FSD在V12之后各个版本展现出的实力,和快速进步迭代的能力,让理想几乎没有什么犹豫,果断选择One Model路线。
更长远的影响,是特斯拉的数据理念,理想从2019年就开始实践了。
李想去年曾坦白在智驾方面投入不足:早期因为要活下去,而把主要资源投在了产品、制造、渠道等等方面,智驾研发长期都是拮据状态。
智驾一号位郎咸朋 更详细地解释了一下:所谓"没资源",主要是没有足够的预算挖人才搞算法。
所以早期理想用Mobileye方案,后来又用地平线+三方供应商方案等等,那时的智驾团队更像是一个"甲方"或项目交付团队。
但在有限资源制约下,李想和郎咸朋依然达成共识:算法可以徐徐图之,但数据能力必须提前建立起来。
所以在2019年开始交付的第一代理想ONE,团队特意在Mobileye的传感器旁边多放了一个摄像头,用来收集和分析问题。相应的,完成了一整套数据采集、挖掘、标注、训练的工具链。
一个例子,郎咸朋透露目前理想智驾训练数据的人工标注占比,已经不到1%。每年节约大约三四百亿的成本(人工标注一帧约10元)。
数据积累和研发体系建设上很早,这是理想端到端"一夜间"上车交卷的核心。
理顺架构始于去年下半年的理想战略会,明确研发和量产交付一起做,一个技术体系,无论是早期的NPN还是去年底推的无图NOA,研发团队都是先在封闭区域短时间做验证,一个区域跑通就立马往外扩,同步加上安全兜底策略。
随着测试范围扩大,理想会逐步加入用户测试,实际上此时研发团队的角色和交付团队重叠了。
舍得砸钱,郎咸朋说目前理想每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。
所以10亿仅仅是入场券,企业有健康的营收利润,保持每年数十亿的持续投入,才是端到端出成果的前提------"幸好理想的业务十分健康"。
换句话说,车卖得多,钱也多,以及还有另一层优势:数据足够多。
郎咸朋认为这是理想回应一切对于质疑的终极答案。
理想为什么要做
理想端到端有两个模型,所以现在出现两种质疑声音。
首先是融合图像、语言多数据类型的大模型,理想能不能做好?
之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队,没有通用性大模型的落地实践经验,靠开源模型永远实现不了端到端自动驾驶的认知能力。
换句话说,除非你一直搞通用AI大模型,否则你就很难搞好那个端到端"点读机"。
把这个问题抛给理想,他们的回应是这样的:
对于垂类应用来说,**通用AI领域的多模态模型借鉴意义没那么大,**唯一相通的其实就只有预训练的部分。
但再往后怎么训练,怎么加自动驾驶的知识而还不影响大模型常识,我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了。
第二种质疑,来自All in端到端的友商,同样被我们抛给理想智驾负责人。
刚刚布道完端到端的何小鹏提了两个观点,首先是端到端应该是渐进式的,一步跳到One Model不可靠,以及他还说"车多数据多,也不一定能做好"。
对于分段式和One Model之争,郎咸朋认为肯定是One Model更好,但理想的技术路线切换不存在什么"飞跃",而是实践后得出的认知。
去年,理想先后验证了高速NOA的有图路线、NPN(地图先验信息)、通勤NOA,最后又改成现在6.0的无图NOA(BEV+Transformer),在一年时间内快速试错:
从高速NOA到城市NOA,发现高精度图依赖不得,于是决定走NPN线,只在复杂路口用地图先验信息。后来NPN百城推进过程中,又发现大量二三线小城,效果远不如北上广这样的一线城市,解决不了问题,于是开始探索彻底去图的方案。
6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的"分段式"端到端一本质相同,也是感知、决策、规控几个模型串起来,各个模块采用数据驱动。
但无图NOA落地过程中,理想又发现了新的问题。那就是只要还有规则存在,就永远有不符合人类驾驶习惯风格的行为,在用户看来,就是"开得不好"。
这个时间节点是今年年初,理想内部迅速统一了认识:
只有One Model端到端才能完全按照人类的习惯去学习驾驶。
虽然有技术切换的成本,有组织管理上的代价,但对于理想来说是值得的,也能负担得起。
为什么要做端到端,为什么走了这么多弯路才开始做端到端,以及为什么能这么快出结果,理想和盘托出。
至于端到端是不是解决自动驾驶终极问题的灵丹妙药,理想和大部分从业者看法并不同。
理想认为,仅靠端到端实现不了无人驾驶,因为目前为止,端到端模型本身解决的还是corner case问题,只不过方式从以前的写规则变成了喂数据。
真正制约自动驾驶发展的,是模型的认知能力,是大模型本身的规模。
所以理想认为,智驾未来的关键变量其实是算力,只有车端算力足够大,才能把大模型频率跑的足够高、延迟足够低。
一旦大模型的响应时延满足自动驾驶安全需要,端到端模型本身和"外挂"VLM模型会出现融合的趋势,理想现在已经在做相关预研工作...这是一条特斯拉也不曾探索过的路线。
未来终局会是什么样,中间又会有哪些变数?
现在下结论太早,最快也要到英伟达的1000TOPS"芯皇"Drive Thor量产上车,答案才会逐渐清晰。
.
#DOLPHINS
多模态大模型:全面理解复杂长尾的开放驾驶场景
原标题:DOLPHINS: MULTIMODAL LANGUAGE MODEL FOR DRIVING
论文链接:https://arxiv.org/pdf/2312.00438
代码链接:https://github.com/SaFoLab-WISC/Dolphins
项目地址:https://vlm-driver.github.io/
作者单位:威斯康星大学麦迪逊分校 NVIDIA 密歇根大学 斯坦福大学
论文思路:
探索完全自动驾驶汽车(AVs),使其能够在复杂的现实世界场景中以人类般的理解力和反应力进行导航一直是一个重要的目标。本文提出了Dolphins,这是一种新颖的视觉-语言模型,旨在作为对话式驾驶助手,具备类似人类的能力。Dolphins能够处理包括视频(或图像)数据、文本指令和历史控制信号在内的多模态输入,并生成与所提供指令相对应的知情输出(informed outputs)。基于开源的预训练视觉-语言模型OpenFlamingo,本文首先通过创新的Grounded Chain of Thought(GCoT)过程增强了Dolphins的推理能力。然后,本文通过构建特定于驾驶的指令数据并进行指令调优,将Dolphins定制化为驾驶领域的应用。通过利用BDD-X数据集,本文设计并整合了四种不同的自动驾驶任务到Dolphins中,以促进对复杂驾驶场景的整体理解。最终,Dolphins的独特特征体现在两个方面:(1)能够全面理解复杂且长尾的开放世界驾驶场景,并解决一系列自动驾驶任务;(2)展现出类似人类的能力,包括通过上下文学习进行无梯度的即时适应,以及通过反思进行错误恢复。
主要贡献:
- 本文提出了一种基于视觉-语言模型(VLM)的对话式驾驶助手Dolphins,该助手能够像人类一样规划高级行为,补充自动驾驶系统(ADS)。
- 本文设计了一种 Grounded Chain of Thought(GCoT)过程,最初赋予Dolphins链式思维推理的能力。随后,本文使模型与自动驾驶任务对齐,尽管可用数据集的范围有限,这一方法不仅弥补了数据集的限制,还使Dolphins能够有效地分解复杂任务并学习其基础子任务。
- 本文通过定量指标和定性展示,证明了Dolphins在场景理解和推理、即时学习和适应、反思和错误恢复方面的显著能力。
论文设计:
实现车辆系统完全自动化的探索是一场创新的考验,融合了人工智能[1]、机器人技术[2]和汽车工程[3]的见解。其核心目标是设计出能够在人类般理解和响应的复杂现实驾驶情境中进行操作的自动驾驶车辆(AVs)。
当前的自动驾驶系统(ADS)[4]是数据驱动并且通常是模块化的,将任务分为感知、预测、规划和控制[5]。然而,这些系统在不同情境下的集成和性能方面仍面临挑战。端到端(E2E)设计提供了直接从感官输入到控制输出的映射,但它们缺乏可解释性,给安全性和法规遵从带来了挑战[6, 7, 8]。
此外,与人类驾驶员相比,现有的自动驾驶系统(ADS)存在许多局限性,包括:
- 整体理解和解释:现有的数据驱动自动驾驶系统(ADS)在整体理解和解释动态复杂场景方面往往表现不足,尤其是在开放世界驾驶环境中长尾分布的场景中[9, 10]。例如,在一个球弹到路上,随后一个孩子追着球跑的场景中,人类驾驶员可以立即推断出潜在的危险,并采取相应的行动来防止意外发生,这依赖于常识、过去的经验以及对人类行为的基本理解。相比之下,现有的ADS如果没有大量类似数据的先前暴露,可能难以准确地解释这种场景。这种缺乏整体理解能力限制了系统在数据分布长尾中意外场景中的泛化能力[11, 12]。
- 即时学习和适应:与能够通过少量示例即时学习和适应新场景的人类驾驶员不同,现有的ADS需要大量数据的广泛训练才能处理新情况。例如,人类驾驶员可以在遇到一种新的道路障碍后迅速学会绕行,而ADS可能需要暴露于许多类似场景才能学到同样的教训。
- 反思和错误恢复:现有的ADS通常在操作过程中采用前馈处理,缺乏基于反馈和指导进行实时纠正的能力。相比之下,人类驾驶员可以根据反馈实时纠正其驾驶行为。例如,如果人类驾驶员走错了路,他们可以迅速根据错误反馈调整决策,而ADS可能难以迅速从错误反馈中恢复[13, 14]。
这些局限性突显了需要一种中间框架来弥合当前自动驾驶系统(AVs)与人类驾驶之间的差距。最近在(多模态)大型语言模型(LLMs)[15, 16, 17]方面的进展,带来了应对这些挑战的希望。这些模型具备丰富的人类知识库,为显著改进自动驾驶系统提供了宝贵的见解。然而,这些模型主要在一般的视觉和语言数据上进行训练,这限制了它们在专门驾驶领域的有效性。此外,当前的模型设计只能处理静态图像和文本数据以生成零样本决策,缺乏处理时间性视频输入和上下文学习的能力。
本文提出了Dolphins(如图1所示),这是一种专门为自动驾驶车辆(AVs)定制的视觉语言模型(VLM),作为对话式驾驶助手,旨在缩小现有自动驾驶系统(ADS)与人类驾驶之间的差距。
基于OpenFlamingo [18],Dolphins通过一系列专门的指令数据集和有针对性的指令微调,适应了驾驶领域。本文首先基于一些公共视觉问答(VQA)数据集[19, 20, 21, 22]、视觉指令数据集[15, 23]和ChatGPT,构建了一个带有 grounded CoT 响应的图像指令跟随数据集,以将细粒度推理能力融入OpenFlamingo模型中。然后,本文利用BDD-X [24]建立了本文的指令数据集,重点关注四个关键的自动驾驶任务:行为理解、控制信号预测、行为分析和深入对话。
Dolphins展示了对复杂驾驶场景的高级理解和类似人类的能力,如即时学习、适应、反思和推理,这显著缩小了现有自动驾驶系统(ADS)与人类驾驶之间的差距。值得注意的是,Dolphins在感知、预测和规划等广泛任务中展现了广泛的适用性,这要归功于其对场景的全面理解。它能够解释静态和动态场景,整合环境因素,并有效地处理下游的预测和规划任务。
此外,Dolphins的上下文学习能力使其能够快速适应新的驾驶条件,相较于现有模型是一个显著的进步。其错误恢复机制提高了模型的准确性和可靠性,使其成为实际驾驶场景中的宝贵工具。更重要的是,Dolphins提供了可解释性,这是在自动驾驶系统(ADS)操作中建立信任和确保透明度的关键因素。
图1:Dolphins概述。第5部分的演示展示了Dolphins在属于整体理解与推理和类人能力这两个维度的一组子任务中的能力。前者包括与自动驾驶相关的能力,如场景理解以及对自车行为的预测和规划。后者则分析了三种人类级别的能力:快速学习与适应、反思与错误恢复以及互动对话。
图2:为增强视觉语言模型(VLMs)的细粒度推理能力而生成 GCoT 响应的过程。ChatGPT从文本输入开始,逐步生成GCoT。
图3:本文提出的数据集概述。与之前的数据集相比,本文采用了RICES(基于检索的上下文示例选择)[60]方法为每个样本选择上下文示例。此外,本文引入了"详细对话"任务,以训练本文的模型生成与人类偏好高度一致的详细响应。此指令旨在释放基础模型的潜在能力,该模型已在由图像-指令-响应三元组组成的数据集上进行了指令微调。
图4:Dolphins模型架构。
表1:和标记最初来自OpenFlamingo训练范式,本文遵循Otter的做法,加入了一个新标记,以更容易截取模型输出的目标答案。请注意,只有绿色序列/标记用于计算损失,本文使用交叉熵损失来训练本文的模型。
实验结果:
图5:展示Dolphins在场景理解方面能力的示例 § 5.1.1。视频中展示了一辆自车在隧道中行驶的场景。Dolphins能够识别自车所处的环境,并准确确定前方车辆的颜色以及推断当前时间。
图13:展示Dolphins在预测能力方面的示例 § 5.1.2。视频中展示了一辆自车正在掉头。Dolphins能够预测前方停放的黑色车辆的轨迹。由于前方的黑色车辆目前停在路边,本文的模型预测该车辆将继续停在那里,不会出现在自车的掉头轨迹中。
图14:展示Dolphins在规划能力方面的示例 § 5.1.2 及控制信号。Dolphins还能够理解控制信号,并利用这些信号预测自车下一秒的速度和转向角度。此外,本文可以启用Dolphins为自车制定规划,从而在驾驶过程中辅助驾驶员。然而,由于缺乏足够的信息,如地图、驾驶目的地等,该规划目前仍然仅限于短时间的未来。
图20:三个示例展示了本文的模型通过上下文学习实现对未见指令的快速适应 § 5.2.1。在前两个示例中,Dolphins通过上下文示例学习扮演驾驶员的角色,并能够准确描述其行为,尽管没有接受过此类指令的训练。第三个示例显示,Dolphins能够从上下文示例中学习常识,例如在隧道内无法根据光线判断当前时间。
图22:展示Dolphins在交互对话能力方面的示例 § 5.2.2。视频中展示了一辆自车在雨天停在路口,Dolphins能够回答关于天气、交通信号灯及其对驾驶影响的各种问题。
图25:展示Dolphins在反思能力方面的示例 § 5.2.3。视频中展示了一辆自车在城市街道的路口行驶。前方的黑色车辆似乎想要右转,因为它的右尾灯在闪烁。最初,Dolphins预测黑色车辆会继续向前行驶。然而,在被告知"闪烁的尾灯表示转弯或变道"这一交通规则后,Dolphins进行了反思并修正了错误的预测。
总结:
随着本文对Dolphins的探索接近尾声,这款旨在提升自动驾驶车辆(AVs)的新型视觉语言模型展示了其在复杂驾驶场景中进行整体理解和类人推理的显著能力,标志着自动驾驶技术领域的一大进步。通过利用多模态输入和创新的 Grounded Chain of Thought, GCoT 过程,Dolphins展现了其作为对话式驾驶助手的高超能力,能够以更高的解释能力和快速适应能力应对广泛的自动驾驶任务。尽管本文已经取得了显著进展,但未来仍面临诸多挑战。
然而,本文在将Dolphins完全优化用于实际自动驾驶车辆(AVs)应用的过程中遇到了显著挑战,特别是在计算开销和可行性方面。本文对Dolphins在DriveLM数据集上的表现进行了评估,这是一个针对现实驾驶场景的基准测试,结果显示其在NVIDIA A100上的平均推理时间为1.34秒,这表明在边缘设备上实现高帧率可能存在限制。此外,在车辆中运行如此复杂的模型所需的功耗也构成了部署的重大障碍。这些发现强调了在模型效率方面进一步改进的必要性。
展望未来,正如新兴研究[78]所建议的,开发定制和精简版的模型似乎是一个有前途的方向。这些精简的模型有望在边缘设备上更具可行性,能够在计算需求和功耗效率之间取得平衡。本文相信,在这一领域的持续探索和创新对于实现配备Dolphins等先进AI功能的自动驾驶车辆的全部潜力至关重要。
.
#还是端到端
"要么拥抱端到端,要么几年后离开智驾行业。"
进入智驾行业数年,智驾工程师秦风(化名)原本已经适应智驾行业激烈的内卷节奏。但当新技术"端到端大模型"来临时,他觉得首先被冲击的可能不是人类司机,而是作为工程师的自己。
这种焦虑并非秦风独有。不少智驾工程师告诉36氪,为了学习新技术,他们在工作加班的间隙看起了行业最新论文、去B站听课,有的甚至从研究生课本开始学起。
"端到端大模型"是今年智能驾驶行业的最新技术炸弹。
今年1月,特斯拉面向普通用户正式推送了 FSD(自动驾驶软件包) v12 的测试版本。该版本采用了端到端网络方案,不少用户称效果经验,比之前的v11版本要拟人得多。
马斯克曾介绍端到端的能力,称之为"图像端输入,控制端输出"。尽管多位行业人士向36氪表达,他们不相信特斯拉端到端方案在实操层面如此激进与神乎其技,但端到端依然如蜜般驱策着国内同行。国内玩家逐渐相信,在大模型、大算力、海量数据的驱动下,AI系统会像人类一样开车。
嗅到新的技术风潮,国内的车企与头部智驾公司已经付诸行动。华为、蔚小理、比亚迪等头部玩家都投入了团队与资源推进端到端方案;理想与蔚来两家车企,还成立了专门的端到端大模型部门,以更快推进技术落地。
高端人才的争夺也在明暗处涌动。在第一款车推向市场之际,为追上智驾进度,小米汽车挖来了前图森中国CTO王乃岩加盟。还有智驾行业人士告诉36氪,华为智驾甚至通过相关专利来锚定人才,做定点挖掘。
新方案的确在引燃国内市场。但这枚硬币另一面是,端到端强依赖于数据驱动,而非大量工程师的人力堆叠实现。特斯拉300人左右的团队规模,被当成范本在头部玩家之间传播。
然而行业现实是,当下头部玩家的智驾团队,人才规模几乎都是千人级。追赶智驾中的老牌车企比亚迪,有达3000人的软件团队,华为智驾团队人数也不遑多让。行情好的时候,工程师们普遍能拿到年薪百万的薪资包。
但不少智驾工程师都相信,如果端到端方案效果被进一步验证,车企智驾团队裁员将是大概率事件。
"200-300人都用不上。"一位前新势力车企智驾骨干坚定地对36氪说道。甚至深度学习背景的应届生,可能都比一些智驾工程师进入端到端项目更有优势。
一些智驾猎头也明显感受到了行业的人才满溢:车企智驾团队不再放出新岗位,人员开始要精简,"很多挂着的HC都是僵尸岗。"在一位猎头的最新动态中,他已经切换赛道,转而替机器人公司招揽人才。
**「**被堵在门外的工程师」
智驾工程师田炜(化名)告诉36氪,这场新技术变革中,比起感知模块、预测模块,规划控制模块的工程师受到的冲击会更大。
这主要因为端到端方案与传统智驾方案有明显差异。传统方案分为感知、定位、地图、预测、规划控制等多个模块,模块功能实现基本由工程师的代码驱动。感知、规划控制两大个部门的人员,往往占智驾团队人数大头。
但端到端方案的特点是,从工程师的代码驱动,变成了数据驱动。最理想的方式是,给系统输入图像,系统可以直接输出车辆的控制,中间的环节都由AI神经网络来完成。
从国内头部玩家的进度来看,引入端到端方案后,传统方案的多个模块通过AI神经网络改造,正在被整合成2个大网:感知大模型、预测决策大模型。"当下很多的方案都是在感知大模型的基础之上,接入一个预测规划大模型。"
更进一步的方案,会将感知预测决策规划集于一体,行业称之为"One Model"(一个模型)。
而新的技术路线,也对车企智驾团队有了全新的人才画像。
有智驾人士告诉36氪,端到端团队需要的人数变少,但人才门槛要求变得更高了。大模型本身要求团队有很强的深度学习背景,"搭建方案阶段,更需要很强的infra(基础架构)人才,对感知、规划控制每个模块都有深刻认知,了解不同芯片算力平台的支持力度、不同AI推理框架等。"
但负责模型搭建与训练人只占很小一部分。"可能团队90%的人都是在为端到端提供数据,以及数据闭环工具链支持等。"
"大模型本身就是一个很精干的团队。"有智驾人士说道。这也是OpenAI等AI科技公司早期仅有200-300人,但也能推出大语言模型ChatGPT,改变全球AI进程的原因。
对工程师而言,端到端技术带来的冲击也深浅不一。
有智驾人士告诉36氪,感知、规控两大模块中,感知大模型原本就依赖深度学习技术。尽管视觉检测路线从过去的CNN卷积神经网转向了基于Transformer的BEV,但工程师们的受到的影响并不大。
但对规控工程师而言,如果要加入端到端,几乎是重新切换赛道。有智驾人士告诉36氪,传统的规控工程师主要有几个方向:路径预测、路径优化、规则后处理,以及车辆控制。"都是蛮细分的学科,基本不相关。除了路径预测模块之外,其他方向的工程师基本没有深度学习背景。"
智驾工程师田炜告诉36氪,规控的人如果想转端到端,一个方向是模型训练本身,但需要很强的深度学习背景。"有可能研究深度学习的应届生,对模型的理解都比你好。"
其次,是数据挖掘和处理,为端到端提供数据养分。"但如果工具链的基建搭建完成,模型大概结构稳定之后,也可能不会再需要人。"最后是模型后处理,端到端大模型输出的轨迹不可信,仍需要一小部分工程师要写规则兜底。
工程师们的焦虑也来于此。"一方面是,端到端大模型本身不需要这么多人。另一方面是,大家都想做端到端,但公司的量产业务需要有人运转。"
一位智驾员工也因为公司当前的量产项目,错过了进入端到端项目组的时机而懊恼。但他也很纠结:即便进入端到端方案中,也是为新的方案兜底,但这不是核心的大模型本身岗位;
而如果留在现在的量产项目岗位,可以积累一段完整的智驾量产项目经验,未来几年也还能流向传统车企。
但另一种险境也会到来,一旦端到端方案向全行业普及,那么他积累多年的技术栈在几年后也会面临淘汰的风险。"可能就要离开智驾行业。"
「 技术分野、资源游戏**」**
为了转入端到端项目组,工程师田炜直接从深度学习的研究生课程开始看起。
他找来深度学习的经典课程,以及一张显卡,对着课本上的实战课程,去实现一些简单的图像识别算法。"至少先把知识点吃透了,才能知道模型本身是怎么运转的。"
看书、实践训练两个月后,田炜才稍微感觉自己能看懂一些端到端大模型开源代码。 他已经向公司申请,调入端到端项目组。
事实上,不只田炜焦虑,田炜所在智驾公司比他更焦虑。他告诉36氪,其公司与一家车企合作开发智驾量产方案,但车企内部也有团队在推进端到端,"整个公司就很焦虑,也早就启动了端到端计划。"
田炜表示,据公司了解,只要上千小时的视频数据,就可以训出来一个端到端demo,而这个量级的数据公司基本能搞定。
但田炜很清楚,以公司现有的资源,最多也只能支撑训练出来一个端到端demo,证明方案可行。从demo到量产,中间还有相当大差距。
而这场新技术的分野游戏,会最先体现在资源分野上。
特斯拉CEO马斯克就曾强调过数据对端到端的重要性:"用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。"
另一方面是算力资源,马斯克还大肆采购了英伟达的显卡训练,称到年底其人工智能训练算力将是9万张英伟达H100的等效算力。算力的储备与需求惊人。
这个门槛相当高。对于至今仍然赚钱艰难的智驾公司而言,一方面是不与车企合作,智驾公司的训练数据很难光靠自身采集得到;另一方面,云端的训练芯片在国内一卡难求,不少车企都在高价收购。"量产项目与融资都还不明朗,很难长期投入端到端。"
而另一位智驾工程师也感受到了无奈。在开发端到端项目小半年后,他接到了公司的通知,暂停端到端项目。原因是公司要集中精力与资源去开发当前的城市无图智驾方案,"端到端要消耗的资源太多了"。
该工程师感到可惜的是,他所在团队做的端到端demo已经可以上路了。团队最初还是奔着对标特斯拉的FSD而去,甚至还花了大力气去搭建工具链等基础设施建设。但随着公司端到端战略的暂停,团队的研发重心已经转向了新的领域。
端到端新技术未在国内真正落地,但对智驾行业的人才结构重塑、生态格局的冲击都已经开始显现。
尽管如此,头部玩家还是会想尽办法挤上这趟具有颠覆性意义的快车,而掌握数据资源、芯片资源、人才资源的巨头时代会到来。
.
#IRL-VLA
自驾VLA再升级!博世最新:奖励世界模型打造全新闭环强化学习框架
自动驾驶VLA深入行业视野以来,一直面临两个关键的问题:
- 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制;
- 闭环训练严重依赖高保真的传感器仿真,但仿真环境和真实环境的domain gap和计算效率的问题阻碍了VLA的泛化。
针对这两个问题,博世、上海大学、上交和清华AIR的团队提出了IRL-VLA,一个全新的闭环强化学习方法,通过逆向强化学习奖励世界模型结合设计的VLA方法。IRL-VLA采用三阶段范式:在第一阶段,提出了一种VLA架构,并通过模仿学习对VLA策略进行预训练。在第二阶段,通过逆向强化学习构建一个轻量级的奖励世界模型,以实现高效的闭环奖励计算。为了进一步提高规划性能,最后设计了专门的奖励世界模型引导的强化学习,通过PPO(近端策略优化)有效平衡安全事件、舒适驾驶和交通效率。IRL-VLA在NAVSIM v2端到端驾驶基准测试中达到了SOTA,在CVPR2025自动驾驶大奖赛中获得亚军。
总结来说,有三个亮点:
- 提出了一种基于逆向强化学习的高效奖励世界模型(RWM);
- 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能
- 在CVPR2025挑战赛的NAVSIM v2取得了第二的成绩。
非常不错的工作,后续xx也会持续跟踪~
引言
端到端自动驾驶已成为一个意义重大且迅速发展的研究领域。随着大量人类驾驶演示数据的可用,从大规模数据集中学习类人驾驶策略具有巨大的潜力。诸如UniAD和VAD等方法将传感器数据作为输入,并在一个完全可优化的模型内直接回归出单模态轨迹。SparseDrive进一步探索了稀疏表示,并提出了一个带有并行运动规划器的对称稀疏感知模块。借鉴机器人学中的扩散策略,DiffusionDrive、Diffusion Planer和Diff-semanticFusion通过锚定高斯分布设计和精心设计的去噪过程生成多样化的驾驶动作。尽管端到端自动驾驶取得了实质性进展,但系统的性能仍然脆弱,在长尾驾驶场景中表现出明显的性能下降。
近期的研究方法试图通过利用嵌入在视觉-语言模型(Vision-Language Models, VLMs)中的海量世界知识来缓解这一挑战,即所谓的视觉-语言-动作(Vision-Language-Action, VLA)模型,该模型以视频为输入并直接输出驾驶轨迹和动作。
一些方法将VLM连接到一个端到端模型,以提高轨迹规划的准确性。RecogDrive引入了一种新颖的驾驶框架,该框架结合了视觉-语言模型、基于扩散的规划器以及模拟器辅助的强化学习,以生成安全、类人的轨迹。SimLingo引入了"动作梦境"(action dreaming)任务,以严格评估指令条件下的驾驶行为。ORION通过名为QT-Former的基于查询的时间模块,将视觉-语言推理与生成式轨迹规划相结合,并采用基于变分自编码器(VAE)的规划器。
尽管如图1.a所示的模仿学习VLA方法,凭借VLM的卓越能力实现了优越的性能,但我们认为,由于在开环框架内进行模仿学习,大模型的全部潜力仍未被充分探索,这种方法倾向于复制数据集中的记录行为。这是因为驾驶本质上是一个多目标且多模态的任务,其中多模态反映了存在多个最优解,而多目标则要求满足多样化的评估标准(例如,碰撞避免、可行驶区域合规性、交通规则合规性等)。一种更自然的策略是让模型在模拟环境中自主探索,如图1.b所示,从而模仿现实世界中观察到的经验学习过程。然而开发一个完全交互式且闭环的模拟框架仍然是一个重大的技术挑战:1)仿真到现实(Sim2Real)的领域差距;2)巨大的计算开销。

在本文中,如图1.c所示,我们介绍了一种新颖的闭环强化学习框架,该框架通过逆向强化学习(Inverse Reinforcement Learning)与我们自建的VLA方法相结合,命名为IRL-VLA。利用我们的框架,设计并学习了一个实时奖励世界模型(Reward World Model, RWM),该模型通过从多样化策略中进行逆向强化学习获得。它捕捉了驾驶的多模态和多目标本质,同时能够以一种成本效益高的方式扩展到大量真实世界数据,从而规避了Sim2Real的领域适应问题。我们应用所学习的RWM来指导我们VLA模型的强化学习。我们的方法在NAVSIM v2端到端驾驶基准测试中达到了最先进的性能,在CVPR2025自动驾驶大奖赛中以45.0 EDPMS的成绩获得亚军。
据我们所知IRL-VLA是首个通过端到端强化学习(包括传感器输入)实现的闭环VLA方法。我们工作的关键贡献总结如下:
- 提出了IRL-VLA,这是一种为视觉-语言-动作(VLA)模型量身定制的、从模拟器反馈中进行强化学习的开创性框架。为了取代计算成本高昂的基于仿真器的奖励计算,引入了一种基于逆向强化学习的高效奖励世界模型(RWM),从而实现可扩展且有效的奖励估计。这个学习到的奖励模型随后被用于通过强化学习训练VLA智能体,显著增强了其实用性。据我们所知,这是首个在训练过程中不依赖仿真器开发基于强化学习的VLA自动驾驶模型的工作。
- 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能,从而在不同的训练范式中实现最优性能。
- IRL-VLA框架在CVPR2025挑战赛的NAVSIM v2端到端驾驶基准测试上取得了卓越的性能。这些结果证明了我们方法的有效性和通用性。
相关工作回顾
端到端自动驾驶:由于其将感知、预测和规划等模块化任务整合在一个完全可微分的设计中,从而能够为追求最终目标而进行优化,因此端到端自动驾驶的研究兴趣激增。UniAD引入了一个全面的框架,将全栈驾驶任务整合到单个网络中。VAD以完全向量化的方式表示驾驶场景------涵盖智能体轨迹和地图元素------从而消除了对计算密集型光栅化表示的需求。Sparsedrive进一步探索了稀疏表示,并提出了一个对称稀疏感知模块和一个并行运动规划器。借鉴机器人学中的扩散策略,DiffusionDrive、Diffusion Planer和DiffSemanticFusion通过锚定高斯分布设计和适当的去噪过程生成多样化的驾驶动作。
自动驾驶中的视觉-语言-动作模型:近期的方法,建立了视觉-语言模型(Vision-Language Models, VLMs)与端到端框架之间的桥梁,以提高轨迹规划的准确性。Recogdrive介绍了一种新颖的端到端驾驶架构,该架构结合了视觉-语言模型、基于扩散的规划器和模拟器辅助的强化学习,以生成安全且类人的轨迹。SimLingo引入了"动作梦境"(Action Dreaming)任务,以严格评估指令条件下的驾驶行为。此外,ORION提出了使用QT-Former和变分自编码器(VAE)将视觉-语言推理与轨迹规划相融合。然而,这些方法依赖于模仿学习,这限制了它们在真实世界多模态和多目标驾驶场景中的泛化能力。
自动驾驶中的强化学习 :强化学习(Reinforcement Learning, RL)已成为一种有前景的方法,在大语言模型(LLMs)和游戏中已证明其成功。在自动驾驶的背景下,RL已被用于解决特定的决策挑战和复杂的驾驶场景。RAD在基于光真实感3D高斯点阵(3DGS)的仿真框架内,采用强化学习来训练一个端到端的自动驾驶智能体。然而,由于传感器渲染的计算量巨大,且未解决仿真到现实(Sim2Real)的领域差距,该方法仅限于离线策略学习。其他研究提出了基于学习的轨迹规划框架,其中动作被直接表示为以自我为中心的规划轨迹。Car-Planner提出了一种基于RL的规划器,在具有挑战性的大规模真实世界数据集nuPlan上,其性能超越了模仿学习(IL)和基于规则的最先进方法(SOTAs)。DiffVLA提出了一种高效的VLA模型,该模型采用分层的由粗到精的扩散式轨迹生成,并结合VLM的导航引导。尽管它在NAVSIMv2基准测试上取得了最先进的性能,但其模仿学习的设置限制了其潜力。我们的IRL-VLA框架将RL的应用范围从规划器扩展到了整个VLA模型架构,从而进一步提升了模型性能的上限。
IRL-VLA算法详解
本节将详细介绍我们所提出的视觉-语言-动作(VLA)模型,该模型通过一个奖励世界模型进行闭环强化学习训练,如图2所示。

问题定义
在自动驾驶中,端到端驾驶系统根据传感器输入数据(如多视角相机图像或激光雷达/雷达点云)和自车状态(自车速度和自车加速度),输出未来的轨迹或未来的动作:
其中,轨迹可以表示为当前自车坐标系下的一系列车辆路径点(坐标和航向),其中每个路径点定义为,表示二维位置,表示航向角。或者,一系列智能体动作也可以表示为,其中每个动作与具有相同的语义含义。参数表示预测视界,即需要预测的未来步数。
模仿策略学习
视觉-语言-动作模型:受xx智能领域内双重过程理论最新进展的启发,我们提出了一种用于自动驾驶的高效VLA模型,该模型包含三个不同的模块:(1) 用于深度场景理解的语义推理模块(2) 用于精确几何推断的3D推理模块以及(3) 一个统一的基于扩散的规划器,用于生成多样化的驾驶轨迹。
语义推理:如图2.d所示,为了在自动驾驶场景中实现多模态信息的有效处理和融合,我们提出了VLM指令引导模块。该模块基于Senna-VLM框架构建,利用多图像编码策略和多视角提示机制,实现高效且全面的场景理解。
3D推理:如图2.e所示,我们首先使用一个BEV视觉编码器和一个适配器,将多视角图像编码为BEV空间中的特征图。然后,我们利用一组检测token(detection tokens)和地图token(map tokens)从BEV特征空间中学习向量化的地图元素和智能体运动信息。
统一扩散规划器:如图2.f所示,为了生成多样化且信息丰富的未来轨迹分布,采用了一种基于扩散的方法,该方法对带有高斯噪声的anchor proposal轨迹进行处理,条件扩散模型学习一种强大的去噪机制,能够捕捉未来运动的固有多模态性。为了增强去噪过程,我们分层地将丰富的场景语义(如BEV标记、地图标记和检测标记)整合到轨迹生成管道中。这确保了模型合成的轨迹与环境约束保持一致。在最终的条件解码步骤之后,通过一个轻量级的基于MLP的回归头,从精细化的轨迹标记中重构出多模态轨迹。这使得每种模式都能与可行、可解释且符合场景的运动模式对齐,从而提高了轨迹的真实性和对物理约束的遵守程度。
模仿策略学习损失:与其他基于扩散的模仿学习训练策略类似,我们的VLA解码器将个带有噪声的锚定轨迹作为输入,并预测分类得分和去噪后的轨迹,训练目标结合了轨迹重建和分类:
其中平衡了简单的L1重建损失和二元交叉熵(BCE)分类损失。
逆环境学习
奖励数据收集:为了开发一个有效的奖励世界模型(RWM),一个全面的数据集至关重要。IRL-VLA使用EPDMS的人类设计指标,该系统包含九个子分数:无责碰撞(No At-Fault Collision, NC)、可行驶区域合规性(Drivable Area Compliance, DAC)、驾驶方向合规性(Driving Direction Compliance, DDC)、交通灯合规性(Traffic Light Compliance, TLC)、自车进度(Ego Progress, EP)、碰撞时间(Time to Collision, TTC)、车道保持(Lane Keeping, LK)、历史舒适度(History Comfort, HC)和扩展舒适度(Extended Comfort, EC),以及一个加权总和分数,记为EPDMS。我们排除了EC,因为其需要对每个场景进行两次独立的模拟。这些指标提供了关于环境和智能体交互的详细洞察。然而,仅靠模仿数据往往缺乏多样性,因为它们无法充分捕捉在各种场景下的多样化轨迹。
为了增强分数和轨迹的多样性并确保模型的泛化能力,我们采用了三种策略。首先,我们记录扩散过程每一步的轨迹及其对应的EPDMS分数。其次,我们不使用固定的轨迹集,而是使用K-means聚类从人类演示数据中采样多种轨迹模式,K值范围从32到8192。第三,我们对NAVSIM数据集中的每个场景应用多个自车姿态进行模拟,以生成多样化的样本。
奖励世界模型:本文提出了一种奖励世界模型(RWM),作为一种轻量级、数据驱动的替代方案,以取代传统的仿真器,从而实现对自动驾驶系统的闭环评估,并通过逆向强化学习收集下游驾驶统计数据(如碰撞率、交通规则合规性和驾驶舒适度)。RWM通过直接基于真实世界演示建模奖励结构,消除了对计算密集型仿真器的需求,并缓解了仿真到现实(sim-to-real)的领域差距。其架构如图2(b)所示,与智能体类似,使用多视角相机信息和智能体预测的未来轨迹作为输入。RWM预测智能体在模拟环境中的未来奖励。
RWM使用基于规则的模拟器对给定轨迹的分数与环境之间的关系进行建模。NAVSIM模拟器生成三种类型的分数。EP分数衡量自车沿中心线的行进进度,范围为。DAC、TLC、TTC、LK和HC分数为二元值,取值为,因为它们评估自车是否遵守预定义的驾驶规则。NC和DDC分数取值为,因为当自车行为无责时,会施加较少的惩罚。这些指标的建模如下:
其中表示来自不同指标的奖励,表示轨迹特征,代表PDMS中的不同子指标。轨迹特征是从给定轨迹路径点上的BEV空间特征中提取的,作为轨迹、周围智能体和环境之间交互的隐藏表示。最终奖励计算为各个分量的加权和:
其中每个指标的权重遵循其他工作中EPDMS的定义。
奖励世界模型优化:RWM的训练目标是最小化预测分数与真实分数之间的误差。在每个训练步骤中,对一批轨迹及其对应的真实分数进行采样,以优化RWM。RWM的训练损失函数定义如下:
其中是第个轨迹在指标上的预测分数,是来自模拟器的相应真实分数。
基于RWM的强化学习
尽管模仿学习提供了一个强大的基线策略,但它本质上受限于离线演示中的偏差和不完全覆盖。为了克服这些局限性,我们采用基于RWM的闭环强化学习来微调VLA策略,如图2.c所示。我们采用近端策略优化(Proximal Policy Optimization, PPO)算法,因为其具有稳定性和样本效率------这对于在训练一个容易产生近似误差的学习型奖励模型时至关重要。
策略优化:策略优化过程包括从VLA策略中迭代采样轨迹,通过RWM对其进行评估,并更新策略参数以最大化预期的累积奖励。通过提供实时奖励反馈,RWM消除了对计算成本高昂的传感器渲染和基于物理的仿真的需求。这使得训练变得可扩展且高效,使VLA模型能够探索多样化的驾驶场景并优化多目标(安全、效率、交通规则合规性)。我们使用PPO算法和RWM来训练策略,选择PPO是因为其在与可能引入近似误差的学习型环境交互时具有稳定性和样本效率。优化过程遵循以下步骤:

借鉴DiffusionDrive,扩散策略可以被视为一个内部的马尔可夫决策过程,它从高斯噪声开始,逐步去噪以产生一个动作序列。具体来说,我们采样条轨迹并获得它们的扩散链。单条轨迹的扩散链表示为
其中是去噪步骤的总数。对于该链:
轨迹奖励由RMW预测,RMW通过NC、DAC、DDC、TLC、EP、TTC、LK、HC等子奖励评估每条轨迹,并返回一个EPDMS作为奖励。然后我们计算组标准化的优势:
扩散链中的每个条件步骤都遵循一个高斯策略:
其中是模型预测的均值,是固定的协方差。
因此,完整链在下的概率密度为
最后计算策略损失,其中包含一个行为克隆(behavior cloning)损失,以防止在探索过程中发生崩溃:
其中是折扣系数(用于缓解早期去噪步骤中的不稳定性),是从参考策略中采样的。
通过RWM辅助的强化学习,扩散规划器通过探索学习预测安全、舒适的轨迹,超越了单纯的模仿,从而将认知能力注入到我们的框架中。
最终的策略优化损失结合了强化学习目标和一个行为克隆项,以保持稳定性并防止对预训练策略的灾难性遗忘:
其中是行为克隆损失的权重。这种组合损失确保了稳定、有效的策略优化,利用RWM引导VLA模型实现最优的驾驶行为。
实现细节
IRL-VLA模型采用V2-99作为主干网络,并处理分辨率为256 × 704的多视角相机输入。模仿学习阶段(IRL-VLA-PT)使用AdamW优化器进行100个周期的预训练,学习率为10⁻⁴,批量大小为32。奖励世界模型(Reward World Model, RWM)通过逆向强化学习进行训练,对于EPDMS中取值范围为{0, 1}的指标,使用二元交叉熵损失;对于取值范围为[0, 1]的指标,使用均方误差损失;对于取值范围为{0, 0.5, 1}的指标,使用交叉熵损失。训练过程利用了专家演示数据和模拟器反馈。在强化学习阶段(IRL-VLA-RL),我们采用近端策略优化(Proximal Policy Optimization, PPO)算法,其截断参数= 0.2,折扣因子= 0.99,广义优势估计(Generalized Advantage Estimation, GAE)参数= 0.95。训练在8块NVIDIA A100 GPU上进行。
实验结果分析
在我们的实验中,我们重点关注以下几个问题:
- IRL-VLA在常见的开环和闭环自动驾驶基准测试上的表现如何?
- 所提出的技术和实现细节如何影响IRL-VLA的性能?
实验设置
数据集与指标:NAVSIM是一个基于OpenScene(nuPlan的新版本)构建的、以规划为导向的自动驾驶数据集。它提供了八个1920×1080的相机和一个由五个传感器在当前及前三帧中聚合而成的融合激光雷达点云。该数据集被划分为navtrain(1,192个训练场景)和navhard(136个评估场景)。
NAVSIM基准测试提供了一个非交互式仿真环境,并采用扩展预测驾驶员模型分数(Extend Predictive Driver Model Score, EPDMS)作为其闭环规划指标:

其中,EPDMS集成了两个子指标组: 和 。该指标通过结合无责碰撞(NC)、可行驶区域合规性(DAC)、驾驶方向合规性(DDC)、车道保持(LK)、碰撞时间(TTC)、历史舒适度(HC)、扩展舒适度(EC)、交通灯合规性(TLC)和自车进度(EP)来生成一个综合的闭环规划分数。
与SOTA对比

表1展示了IRL-VLA在Navhard基准测试上与基线方法的性能对比。我们的预训练模型(IRL-VLA-PT)在多个指标上取得了具有竞争力的结果,EPDMS得分为74.4,优于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)等几种最先进的方法。与GTRS-Dense和GTRS-Aug等基于评分的模型相比,这些模型通过评分机制在提升安全指标(如无碰撞NC,GTRS-Aug为98.9)的同时,牺牲了舒适性相关分数(如扩展舒适度EC,GTRS-Aug为54.2),而我们的IRL-VLA-PT模型在保持近乎相当的安全性能(NC:98.3 vs. 98.9)的同时,显著提升了自车进度(EP:83.9 vs. 76.1)和扩展舒适度(EC:76.0 vs. 54.2)。这种平衡凸显了我们的VLA架构在优化安全性和舒适性方面的有效性,且无需依赖显式的评分机制。
消融实验

为了评估所提出的技术和实现细节对IRL-VLA性能的影响,我们进行了两项消融研究。这些研究考察了最佳VLA结构、奖励世界模型的效果,以及结合强化学习(RL)和模仿学习(IL)的重要性。
分层推理扩散VLA智能体的消融研究:表2展示了我们提出的IRL-VLA分层推理扩散VLA智能体的消融研究。仅使用3D推理并通过人类驾驶演示数据进行训练时,模型在Navhard-real基准测试上取得了70.0的EPDMS。引入语义推理模块和我们的高层驾驶指令查询后,EPDMS提升了1.4。最后,引入用于连续轨迹预测的扩散规划器后,EPDMS进一步达到了74.4,提升了3.0。这证明了我们分层推理扩散VLA方案的价值,该方案在产生更安全、更舒适的驾驶行为方面具有强大的预训练性能。
模仿学习损失权重的消融研究 :表3考察了模仿学习损失权重的影响。当时,模仿学习与强化学习贡献相等。当时,模仿学习项会减弱,导致训练崩溃。最后,将设置为0.5,在模仿学习和强化学习之间实现了最佳权衡,从而获得了最高的74.9 EPDMS。
结论
在本文中,我们提出了IRL-VLA,一种新颖的闭环强化学习框架,该框架通过奖励世界模型(Reward World Model)为端到端自动驾驶中的视觉-语言-动作(VLA)模型服务。我们的三阶段方法------模仿策略学习、逆向环境学习和闭环强化学习------解决了开环模仿学习和基于仿真器训练的局限性。通过使用语义和3D推理模块以及基于扩散的规划器对VLA模型进行预训练,通过逆向强化学习构建一个轻量级的奖励世界模型(RWM),并使用PPO微调策略,IRL-VLA在NAVSIM v2 CVPR挑战赛基准测试上取得了最先进的性能,获得了45.0 EDPMS,并在CVPR 2025自动驾驶大奖赛中获得亚军。同时,在NAVSIM Navhard real基准测试上也表现出最先进水平,得分为74.9。据我们所知,IRL-VLA是首个在不依赖仿真器的情况下、结合传感器输入的闭环VLA方法。我们的贡献包括一个开创性的VLA模型强化学习框架、一个用于可扩展奖励计算的高效RWM,以及所证明的通用性,为闭环自动驾驶的未来发展铺平了道路。
#NVIDIA英伟达进入自动驾驶领域二三事
如今Orin订单火爆,上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。
但谁还记得黄仁勋NVIDIA公司创始人兼首席执行官起初并没有看得上自动驾驶领域呢。
1 特斯拉与Mobileye的裂缝
2013 年 9 月,马斯克公开宣布特斯拉正式加入到自动驾驶赛道,而特斯拉也开始招聘自动驾驶领域的工程师------马斯克强调,特斯拉将自行内部开发这一技术,而不是采用外部任何其他公司的技术。
但在当时的市面上却没有能够支持特斯拉进行自研开发的自动驾驶芯片,无奈之下,特斯拉只得选择与当时地位十分强势的 Mobileye 合作。与 Mobileye 的其他车企客户不同,特斯拉并非是被动采用 Moblileye 的方案,而是基于 Mobileye 的方案在数据积累和软件算法层面做了很多独到的增强型创新,让 Autopilot 具备自学习(self-learning)的能力。举例来说,当时特斯拉在车内增加了 Fleet Learning 功能,其本质就是在 Autopilot 的动作与人类的实际决策不一致时,能够通过软件记录并学习人类操作;这个功能,已经有点类似于特斯拉后来推出的「影子模式」。
2015 年 4 月,马斯克还专门从微软挖来了一个名为 David Nister 的计算机视觉技术大牛,成立了 Tesla Vision 团队。
自然,马斯克的做法遭到了 Mobileye 的强烈反对,因为 Mobileye 希望把芯片和算法都控制在自己手中,而不希望车企具备自研算法的能力。
为此,Mobileye 和特斯拉在 2015 年闹了不少矛盾,强势的 Mobileye 要求特斯拉暂停 Tesla Vision,否则就断供技术支持。
马斯克再次意识到与Mobileye的合作不可能持久,也希望找到一颗能够提供足够算力、但同时也能够允许特斯拉自研视觉算法的芯片,于是他找到了本就是特斯拉供应商的英伟达(2012 年量产发布的特斯拉 Model S,其 12.3 英寸液晶仪表盘和可触控的 17 英寸中控信息娱乐屏幕使用两颗不同的英伟达 Tegra 芯片)。
2 英伟达有意自动驾驶领域
2012年,对于端侧部署的执念,让黄仁勋开始寻求不同方向的落地机会,包括安防、机器人、汽车等领域。在看了一圈之后,考虑到英伟达芯片的高功率问题,黄仁勋认定:基于电动汽车的自动驾驶是英伟达在端侧最好的方向。
在 2012 年到 2013 年之间,有一些团队找到英伟达,表示要通过 GPU 做基于深度学习的计算机视觉。这让黄仁勋意识到,深度学习可能会迎来爆发,而英伟达的 GPU 技术也会因为对深度学习和计算机视觉算法的支持而开辟出一个广阔的市场。
2013 年 11 月,英伟达财报电话会议,黄仁勋在谈到汽车业务的发展时表示:
其实考虑汽车的方式,应该是自动化。如今的汽车是联网汽车,因此数字计算比以往任何时候都更加重要。我们的数字集群将为汽车产业提供现代化驾驶体验的机会,而并非是使用传统的机械仪表。 同时,因为 GPGPU 的存在,我们处理器中的可编程 GPU 将会使各种新的驾驶员辅助功能成为可能。基于计算机视觉、驾驶辅助、人工智能等方面的能力,我们将会让汽车变得更加安全,我们让汽车驾驶变得有趣。
2015 年 1 月,英伟达发布 DRIVE 品牌和它旗下的两款汽车计算平台,其中 DRIVE PX 基于 Terga X1 芯片和 Maxwell GPU,拥有超过 1 TOPS 的算力,而且可以支持计算机视觉和机器学习技术。
据说,2016 年 1 月,黄仁勋带着英伟达的初代自动驾驶计算平台 DRIVE PX,率领团队来到特斯拉位于加州的办公室,见到了马斯克。马斯克用它跑了几遍当时 Autopilot 团队训练出来的一个神经网络模型。
2016 年年初,英伟达发布了 DRIVE PX 2------黄仁勋称之为「世界上第一个面向自动驾驶汽车的超级计算机」。
3 英伟达与特斯拉的双向奔赴- 英伟达牵手特斯拉
2016 年 5 月,一起与 Autopilot 密切相关的 Model S 事故发生。两个月后,Mobileye 宣布终止了与特斯拉之间的合作。
可以想到,马斯克选择了英伟达作为新的合作伙伴。
2016 年 10 月,特斯拉宣布:包括 Model 3 在内的所有量产车型将会搭载能够实现完全自动驾驶(Full Self-Driving)能力的硬件(也就是 HW2.0),其中传感器包括 8 颗环视摄像头、12 颗超声波雷达和一颗前向雷达。
与此同时,HW2.0 还内置一个算力比前代产品增加了四十多倍的计算设备(即英伟达 DRIVE PX 2),它能够运行特斯拉最新开发的面向 Autopilot 进行视觉、超声波和雷达融合处理的神经网络。需要说明的是,虽然也叫 DRIVE PX 2,但特斯拉所用的这个版本是它与英伟达联合定制的。
4 特斯拉不是英伟达的终点
2017 年底,特斯拉对外公开自研芯片计划。
但英伟达也不是全无准备。
在把 Drive PX 2 成功地落地到特斯拉上之后,黄仁勋一直在紧锣密鼓地准备下一代产品。与此同时,英伟达也花了大量的=功夫,不断拓展汽车领域朋友圈。根据英伟达在 GTC 2017 大会上的统计,与英伟达就自动驾驶解决方案达成合作关系的公司达到了 225 家------除了汽车企业、零部件供应商、互联网公司和图商之外,还有一些创业公司。
2018 CES,黄仁勋放出了英伟达在自动驾驶领域的一枚重磅产品:全新的自动驾驶 SoC 平台 DRIVE Xavier。与 DRIVE PX 2 相比,DRIVE Xavier 是一颗集成了多个模块的自动驾驶 SoC,在计算性能显著提升的同时,功耗也减少了很多。
2018 年 8 月17日,马斯克在推特上称:英伟达做出了非常棒的硬件,对黄仁勋和他的公司有很高的敬意;但我们的硬件需求非常独特,需要跟我们的软件紧密地匹配。
2018 年 12月10日,马斯克在推特上称:自动驾驶需要特斯拉HW3,这个平台将取代英伟达,并具有10倍的图像处理能力。
2019 年 4 月,在特斯拉自动驾驶日上,被马斯克称之为「FSD Computer」的 HW3 正式发布------按照马斯克的说法,这是「世界上专门面向自动驾驶x之目的而设计的最先进的计算机」。
至此,英伟达与特斯拉在智驾平台上的合作告一段落。
#GMF-Drive
全面超越DiffusionDrive!中科大GMF-Drive:全球首个Mamba端到端SOTA方案
端到端自动驾驶已经成为行业中普遍认同的方案,它能够直接将原始传感器输入映射成为驾驶动作,从而减少对多阶段中间表示的依赖以及信息损失。最新的工作中,比如像 DiffusionDrive 和 GoalFlow 这样的扩散式规划模型,展现出了在生成多样且高质量驾驶轨迹方面的强大能力。展开来说,VLA的架构也可以基于VLM+轨迹生成的模块实现,所以近来的很多工作都聚焦在端到端和、VLA两个大方向上。
然而,尽管轨迹规划模块取得了显著进步,一个关键的瓶颈依然没有被充分解决:多模态融合架构 (multi-modal fusion architecture),也就是 如何整合不同传感器的异构输入 。当前的主流方法大多采用 TransFuser 风格的传感器融合架构,这类方法通常是直接将图像特征与 LiDAR 特征拼接,然后通过自注意力机制进行处理(如图 1a)。

这种方式主要存在两个问题:
- 信息损失:传统基于直方图(histogram-based)的 LiDAR 预处理方法,会将空间网格中点的高度进行平均,从而丢失了关键的 3D 几何信息,比如物体形状和结构的重要线索。这会限制模型的感知能力。
- 缺乏空间感知:标准的自注意力机制在处理鸟瞰图数据时缺少足够的空间先验,它会对所有位置均匀地关注,而忽略了驾驶场景中的重要空间规律,例如前方区域通常比后方区域更重要,近处的障碍物比远处的更需要优先处理。
作者的实验还揭示了一个矛盾:相比单模态架构,现有的多模态融合架构在性能上提升有限,这说明 TransFuser 风格的方法更像是在做简单的特征拼接,而不是结构化的信息整合。
为了解决这些问题,中科大和中国矿业大学的团队提出了 GMF-Drive,它包含三个模块:
- 数据预处理模块:将原始点云处理为增强几何信息的 14 维柱状表示,保留丰富的几何场景信息。
- 感知模块 :引入 GM-Fusion 模块,利用具备空间感知能力的状态空间模型(Spatial-aware State Space Model, SSM),在保持全局感受野的同时实现线性 复杂度的空间建模。
- 轨迹规划模块:采用类似 DiffusionDrive 的截断扩散策略(truncated diffusion),结合锚点轨迹(anchor trajectories)生成合理的驾驶轨迹。
基于上述分析,作者的主要贡献如下:
- 设计了一种几何增强的点云表示,并证明了它在多模态融合中的有效性。
- 提出了一种新型的融合架构 GM-Fusion,基于空间感知的状态空间模型(BEV-SSM),在自动驾驶任务中实现了比传统 Transformer 更优的精度。
- 在 NAVSIM 基准测试中通过大量消融实验验证了各个组件(几何增强柱状表示、BEV-SSM、分层可变形跨模态注意力)的有效性,证明它们对最终的高精度结果都有显著贡献。
- 论文题目: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
- 论文链接:https://arxiv.org/pdf/2508.06113****
相关工作回顾
端到端自动驾驶
端到端自动驾驶的发展已经从早期基于 CNN 的方法,演进到更先进的多模态系统。早在 1997 年,Chua 等人就证明了 CNN 可以直接将图像映射到转向指令,但这些方法的泛化能力十分有限。条件模仿学习 (Conditional Imitation Learning)提升了性能,例如 CILRS 利用导航指令来引导驾驶策略,而 LBC 则引入了带有"特权信息"的教师-学生学习框架。
将表示方式转向鸟瞰图是一个重要的里程碑。例如 TransFuser 将图像和 LiDAR 数据结合在一起,通过 Transformer 进行融合,启发了许多新的 BEV 方法。UniAD 将多个感知任务整合到一起以提升规划效果,VAD 引入了高效的向量化表示。近期的研究重点转向多模态决策,例如 SparseDrive 探索稀疏表示,而 GoalFlow 可以生成多样化的轨迹。然而,大多数方法依然依赖计算量庞大的 Transformer 架构,作者的工作则尝试用更高效的模型来解决这个问题。
自动驾驶中的多模态融合
多模态融合在自动驾驶中的方法主要分为三类:早期融合 (early fusion)、后期融合 (late fusion)、以及中期融合(intermediate fusion)。
- 早期融合:在原始传感器数据阶段直接融合,但不同模态数据格式差异较大,处理困难。
- 后期融合:在高层决策阶段进行融合,但错过了跨模态特征交互的机会。
- 中期融合:目前最常用的方法,在中间特征层面使用 Transformer 进行结合。
例如,TransFuser 在多个尺度上融合图像和 LiDAR 数据,通过注意力机制实现,性能优于早期的基于几何的方法。之后的 BEVFusion 和 FUTR3D 在共享特征空间中提升了融合效果。但这些方法依赖计算量庞大的自注意力机制,迫使它们只能使用低分辨率特征,从而丢失了重要细节。
作者的工作不同于以 Transformer 为核心的范式,提出了 GM-Fusion ,利用具备空间感知能力的状态空间模型(Spatial-aware State Space Model, SSM),在保持长程依赖建模能力的同时,实现了线性复杂度的计算。
GMF-Drive算法详解
模型概述
GMF-Drive (见图 2)使用两个独立的 ResNet-34 主干网络分别对相机图像和几何信息丰富的 14 维 LiDAR 柱状表示进行编码。在四个尺度上,作者的 GM-Fusion 模块通过通道注意力(Channel Attention) 、BEV-SSM (用于线性复杂度的空间建模)以及 分层可变形跨注意力(Hierarchical Deformable Cross-Attention, HCA) 来融合多模态信息。融合后的特征与自车状态及锚点轨迹结合后,输入到扩散解码器,通过截断扩散生成最终轨迹。

几何增强的柱状表示
传统的多模态融合方法在将 LiDAR 点云离散化为体素时,常常会丢失关键的几何信息。为了解决这个问题,作者提出了一种 14 维柱状表示,在保持计算效率的同时,完整保留 3D 几何特征。
给定点云 ,其中每个点 包含三维坐标、反射强度和雷达环索引,作者首先将 BEV 空间离散化为规则的柱状网格,分辨率为 ,其中 表示每米的像素数。
对于网格位置 的每个柱状单元,作者提取一个 14 维特征向量 ,包括点特征池化结果 和统计特征:
(1)点特征池化
对于柱状单元 中的点 ,作者计算柱心 和平均高度 。相对偏移为:
然后对增强后的点特征做最大池化:
(2)统计特征
为了捕捉直方图方法无法体现的局部几何结构,作者计算反射强度的均值与方差:
此外,作者基于 PCA 计算四个几何形状描述符 至 ,包括线性度(linearity) 、平面度(planarity) 、球形度(sphericity) 和各向异性(anisotropy),分别用于识别杆状物体与边缘、检测地面与墙面、衡量体积散布程度,以及区分结构化物体与噪声。
这种 14 维表示 保留了传统直方图方法中常被丢弃的关键信息,不仅包含高度变化和强度模式,还包括局部表面几何,从而让模型更好地区分点密度相似但几何结构不同的物体,提升感知精度和轨迹规划的安全性。
Gated Mamba Fusion模块
GM-Fusion 模块通过三部分来整合多模态特征:
- 门控通道注意力(Gated Channel Attention):对齐并融合相机与 LiDAR 特征。
- BEV-SSM:利用方向感知(direction-aware)与双扫描模式(dual-pattern scanning)并结合距离衰减(distance decay)高效建模空间依赖。
- 分层可变形跨注意力(HCA):查询多尺度图像特征,进一步精细化融合结果。

BEV 位置编码
标准位置编码往往不能有效表示自动驾驶场景中复杂的空间结构。作者提出一种 自车中心极坐标系 的编码方法,结合距离和方向信息。对于每个空间位置,作者计算其与自车原点的欧几里得距离和方位角(使用 atan2
计算)。这些极坐标通过多频率正弦编码(sine-cosine)映射到高维空间,波长呈指数衰减。
关键创新在于维度交错(dimensional interleaving) ,即将距离和角度编码交替排列,而不是分块拼接,从而在每个特征层都强制联合学习空间大小与方向信息。
双扫描模式
为了将二维 BEV 特征序列化供顺序处理,作者使用两种互补扫描模式:
- 光栅扫描(Raster Scan):按行依次从左到右扫描,适合捕捉沿行驶方向的长程依赖。
- Z 字扫描(Zigzag Scan):蛇形路径扫描,保持局部邻近像素在序列中的连续性,有助于保留局部几何细节。
两者互补,使模型既能获得全局场景结构(光栅扫描)又能保留局部细节(Z 字扫描),BEV-SSM 会并行处理并自适应融合它们。
AwareSSM 模块
AwareSSM 处理序列化后的 BEV 特征,包含方向感知分支 和距离衰减分支,再经过并行状态空间模型(SSM)生成空间信息增强的输出。
方向感知通过三个可学习的状态转移矩阵实现:
根据扫描模式组合:
其中权重 按方向重要性设定,前向最高,侧向次之,后向最低。
距离衰减机制为:
其中 为自车到位置 的距离, 为网格最大距离, 为可学习参数。
并行状态更新公式为:
其中 、 依赖输入, 为第 步的状态转移矩阵。
自适应特征融合模块(Adaptive Feature Fusion Module)
该模块会根据全局场景上下文自适应调整来自不同扫描模式的特征权重,避免简单平均。首先聚合全局上下文,再通过小型神经网络生成归一化融合权重,然后加权合成输出特征,实现对不同路况下特征贡献度的动态调整。
实验结果分析
实验设置
作者在公开可用的 NAVSIM 数据集上进行了实验。为了确保公平比较,作者采用了与 DiffusionDrive 相同的评估指标。GMF-Drive 基于 DiffusionDrive 的代码库,将其中的 TransFuser 模块替换为作者的 GM-Fusion 架构。
定量比较
如表 1 所示,GMF-Drive 在 NAVSIM navtest 集上的 PDMS 得分达到 88.9,在 ResNet-34 主干和相同传感器输入条件下,较之前最佳的 DiffusionDrive 提高了 0.8 分,证明了 GM-Fusion 架构相较于传统基于 Transformer 的融合方式的优越性。

作者方法的优势在一些关键子指标上尤为明显。GMF-Drive 在可行驶区域符合率(DAC)上得分 97.3(相比 DiffusionDrive 提升 +1.1),验证了保留精细空间特征能够提高场景理解能力。它还在自车推进率(EP)上获得了 83.3 的最高分,表明高效的融合提升了安全性和驾驶效率。
此外,GMF-Drive 显著超越了基于轨迹词汇的方法。它比一个经过大量调优、额外使用规则监督和加权置信度后处理的 Hydra-MDP 变体高出 2.3 PDMS 分。
消融实验
整体系统组件分析
如表 2 所示,基线 DiffusionDrive 模型经过多个关键创新的逐步增强,每一步都在评估指标上带来了可衡量的性能提升。

首先,将基线 LiDAR 编码替换为作者的 8 维 pillar 表示,使得 PDMS 从 88.10 提升到 88.61,验证了更丰富的几何输入即使在标准融合模块下也能提升感知性能。
接着,集成作者的 Gated Mamba Fusion(GMF)模块后,PDMS 进一步提升至 88.82。尽管 EP 略有下降,整体性能的提升表明作者的空间感知融合机制能够有效利用这些几何特征。
最后,采用完整的 14 维 pillar 表示使 PDMS 达到最高的 88.85。相较于 8 维版本的增益较小(+0.03),但在所有指标上均带来了一致的小幅提升。这表明 8 维表示捕获了最关键的几何信息,而额外的统计特征提供了细微的优化。
总体而言,这些组件相较于基线带来了 0.75 分的 PDMS 提升,证明了数据表示和融合架构对于实现最优性能都至关重要。
融合架构设计分析
表 3 对融合策略的系统性评估为作者的架构设计提供了有力证据。从基线自注意力(SA)机制开始,切换到跨注意力(CA)带来了可观的性能提升,PDMS 从 88.10 提升到 88.39。这一提升源于跨注意力在相机和 LiDAR 模态间建立直接特征对应关系的优势,相较于基线的拼接融合,跨模态交互更有效。

C-EffiMamba 的方法尝试用通用状态空间模型替代 Transformer 架构。PDMS 降至 88.02,表明简单套用标准序列模型无法捕捉驾驶场景固有的复杂空间关系。
CA+EffiMamba 的提升有限(88.04),但其分层版本(HCA+EffiMamba)显著提升至 88.44。性能差距突出了多尺度处理在传感器融合中的重要性,分层注意力机制能在不同空间分辨率下自适应聚焦于相关区域,同时保持上下文感知能力。
最大提升来自 HCA+BEV-SSM 配置,它引入了作者专门优化的 BEV 状态空间模型,PDMS 达到 88.69。这种针对 BEV 优化的扫描模式与空间先验对于处理 BEV 表示特别有效,从而在轨迹预测与障碍物检测任务中获得更优表现。
GM-Fusion 组件分析
表 4 量化了 GM-Fusion 各组件的贡献。仅添加分层可变形跨注意力(HCA)即可将 PDMS 从 88.10 提升至 88.46,得益于 DAC 和 EP 的提升。

将 HCA 与通道注意力结合进一步提升到 88.67,主要提升了 NC 和 TTC,说明在融合前显式对齐相机与 LiDAR 特征的重要性。
将 HCA 与作者的 BEV-SSM 结合也达到了类似的 88.69,说明 BEV-SSM 的空间建模能力与通道对齐在融合中同样有效,同时由于其线性复杂度而具备更高计算效率。
最后,完整集成所有三个组件的 GM-Fusion 模块,PDMS 达到最高的 88.85。最终的性能提升验证了通道注意力与 BEV-SSM 的互补性:前者跨模态对齐特征,后者在融合表示中建模空间依赖,两者的协同作用是作者取得最优性能的关键。
定性比较
为了直观展示作者方法的优势,作者在图 4 中给出了轨迹的可视化比较。
在左转场景 (a) 中,DiffusionDrive 生成的轨迹偏离了真实轨迹,表现出方向不一致。在直行场景 (b) 中,基线方法出现了意外的左偏;在右转场景 (c) 中,DiffusionDrive 生成的轨迹保持直行,与所需的轨迹几何不符。这些模式表明,基于 Transformer 的融合框架在空间推理方面存在局限。

相比之下,GMF-Drive 在所有场景中都实现了准确的路径对齐。作者的方法能够正确完成左转 (a) 和右转 (c),同时在直行 (b) 中保持稳定的直线运动。
这种表现直接得益于作者的架构创新:几何增强的柱状表示保留了关键的 3D 结构信息,而 GM-Fusion 通过方向扫描序列实现了空间感知的特征融合,并能在多模态处理过程中自适应地优先关注前方区域,从而生成更符合空间约束的轨迹。
结论
在这项工作中,作者提出了 GMF-Drive ------ 一个新型的端到端自动驾驶框架,它将几何增强的柱状表示 与具备空间感知能力的门控状态空间模型 相结合,用于多模态感知融合。该融合方式有效替代了当前依赖 Transformer 的融合框架。通过在 NAVSIM 基准上的全面实验,作者的消融研究验证了融合架构设计的合理性,而定量结果表明,GMF-Drive 在性能上达到了新的最优水平。
#ReconDreamer-RL
北大最新:基于扩散场景重建的强化学习框架,碰撞率降低5倍!研究背景与核心挑战
端到端自动驾驶模型的闭环仿真强化学习训练正受到广泛关注。相比仅依赖专家演示的模仿学习,闭环强化学习能让模型与环境互动,提升在多样场景中的鲁棒性和适应性。但现有方法面临两大核心挑战:
- 仿真环境真实性不足:游戏引擎仿真器缺乏传感器级真实感,而现实世界闭环训练成本高、风险大;基于场景重建的方法虽能构建逼真数字孪生,但受限于训练数据分布,仅能在记录的相机轨迹范围内生成高质量传感器数据,难以处理突发刹车等极端场景。
- 训练数据分布不均:现有数据多偏向简单直线运动,缺乏复杂轨迹和极端场景样本,导致模型泛化能力受限。
核心框架:ReconDreamer-RL的三层设计
该框架通过整合视频扩散先验与场景重建,构建了包含三个核心组件的强化学习增强方案,分两阶段优化自动驾驶策略:模仿学习阶段通过行为克隆初始化规划,强化学习阶段通过闭环试错优化策略。
- ReconSimulator:高逼真度仿真环境
作为强化学习的交互基础,其核心是结合外观建模与物理建模,缩小sim2real差距:
- 外观建模:先通过3D高斯 splatting(3DGS)重建驾驶场景并渲染新轨迹,再用DriveRestorer修正渲染视频中的伪影,迭代优化重建模型以支持多视角高质量渲染(流程见figure 2)。其中,DriveRestorer基于视频扩散模型微调,扩散损失公式为:

式中,为时间步的随机噪声,为去噪网络,为带噪 latent 变量,包含退化视频、3D边界框和高清地图等控制条件。
- 物理建模:采用运动学自行车模型确保车辆轨迹的物理可行性。车辆在世界坐标系中的位姿(为旋转矩阵,为位置)通过线速度和转向角更新,位置和方向更新公式分别为:
其中为导出的前进方向向量,(为轴距),为绕z轴的旋转矩阵。
- Dynamic Adversary Agent(DAA):极端场景生成器
为解决训练中极端场景缺失问题,DAA通过控制周围车辆轨迹自动生成切入、急刹等复杂交互场景(如figure 3、figure 4):


- 从BEV中根据与自车的距离筛选目标车辆,基于自车轨迹和预设交互行为,通过函数(如text-to-trajectory方法)生成新轨迹。
- 生成的轨迹需通过可行性检查:确保在可行驶区域内、与其他车辆保持最小距离(),且符合运动学模型约束。
- 同时用于模仿学习和强化学习阶段:前者生成离线避撞轨迹数据,后者动态调整目标车辆速度等参数增加训练难度。
- Cousin Trajectory Generator(CTG):轨迹多样性增强器
针对训练数据偏向直线运动的问题,CTG通过轨迹扩展和插值生成多样化轨迹,构建Cousin-nuScenes数据集(如figure 5、figure 6):


- 轨迹扩展:生成车道变更、急转等新轨迹,检查其物理可行性和避撞性。
- 轨迹插值:对专家轨迹在时间步与间线性插值,插值点为:
其中(,为插值点数),同时调整周围车辆位置以保持真实交互关系。
实验验证:性能与优势
实验在基于nuScenes和Waymo数据集重建的3DGS环境中展开,对比了VAD、GenAD、RAD等基线方法,验证了该框架的有效性。
- 整体性能提升
table 1显示,相比模仿学习方法(如VAD的碰撞率0.386)和强化学习方法RAD(0.238),该框架的碰撞率降至0.077,降低约5倍;位置和方向偏差总和(DR)也从RAD的0.084降至0.040,轨迹贴合度显著提升。

- 极端场景表现
在切入场景中(table 4),模仿学习方法动态碰撞率极高(如VAD为0.293),RAD虽有改进(0.210),但该框架将其降至0.053,碰撞率较模仿学习提升404.5%。定性结果(figure 7)显示,面对右侧车辆快速切入及切入后急刹场景,该框架能成功避撞,而RAD因反应不足或操控不当导致碰撞。


- 组件有效性
消融实验(table 2)表明:
- 移除ReconSimulator后,碰撞率从0.077升至0.238,验证了逼真仿真环境的必要性;
- DAA将碰撞率从0.172降至0.117,证明极端场景生成的价值;
- CTG通过优化数据分布,将偏差率从0.073降至0.053。

- 渲染效率
table 5显示,ReconSimulator的渲染速度达125 FPS,远超EmerNeRF的0.21 FPS,满足强化学习实时交互需求。

参考
1\]ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction ##### #SC-Lane 自适应坡度感知+时序一致性,刷新3D车道线检测SOTA 对于自动驾驶系统而言,精准感知3D车道线是理解道路几何、保障行车安全的基础。然而,在面对上下坡、弯道、丘陵等复杂多变的道路几何形状时,现有检测方法常常表现不佳。此外,连续帧之间抖动、不稳定的高度预测也给下游的规划控制模块带来了挑战。 为了解决这些问题,来自首尔大学和现代汽车集团的研究团队联合提出了一种名为 **SC-Lane** 的新框架。SC-Lane分别从"空间"和"时间"两个维度对3D车道线检测的核心------道路高度估计,进行了优化。其核心是一个能够根据图像内容自适应感知道路坡度的特征融合模块,以及一个能够在训练时强制模型学习时序一致性的约束模块。凭借这两大创新,SC-Lane在权威的OpenLane基准测试中,以 **64.3%** 的F-score刷新了SOTA记录,显著优于现有方法。 * **论文标题:** SC-Lane: Slope-aware and Consistent Road Height Estimation Framework for 3D Lane Detection * **作者:** Chaesong Park, Eunbin Seo, Jihyeon Hwang, Jongwoo Lim * **机构:** 首尔大学;现代汽车集团 * **论文地址:** https://arxiv.org/pdf/2508.10411v1 * **项目页面:** https://parkchaesong.github.io/sclane/ * **代码仓库:** https://github.com/parkchaesong/sc-lane * **收录会议:** ICCV 2025 背景:3D车道线检测的瓶颈 3D车道线检测不仅要识别出车道线在图像中的位置,更要恢复其在三维空间中的精确坐标,这其中最关键也最具挑战性的一步就是估计道路表面的高度(Height Estimation)。 以往的方法(如HeightLane)通常采用一种基于"锚点"的思路,即预设一组具有固定坡度的平面(slope anchors),然后将它们加权融合成最终的道路高度图。这种方法的局限性在于"固定":当遇到坡度连续变化的复杂路面(如山路、匝道)时,固定的锚点难以灵活应对,导致高度估计不准,进而影响3D车道线的定位精度。 此外,现有方法大多独立处理每一帧图像,忽略了视频序列中的时序信息。由于道路本身是静态的,其高度在短时间内不应发生剧烈变化。但逐帧预测的噪声会导致估计出的高度图在连续帧之间"抖动",这对于需要稳定感知的自动驾驶系统是不可接受的。  SC-Lane:空间自适应与时间一致性 SC-Lane(**S** lope-aware and **C**onsistent Lane)框架正是为了解决上述两大痛点而设计的。它引入了两个核心模块:坡度感知自适应特征模块和高度一致性模块。  上图展示了SC-Lane的整体架构。它通过这两个关键模块,分别在空间上实现了对不同道路几何的自适应,在时间上保证了预测结果的稳定性。 1. 坡度感知自适应特征模块 (Slope-Aware Adaptive Feature module) 该模块旨在打破"固定"锚点的局限性。它不再对所有预设的坡度特征一视同仁,而是让网络根据当前的图像内容, **动态地学习** 一个权重,来决定如何融合这些不同坡度的特征图。例如,当车辆正在上一个陡坡时,网络会判断出此时应该给予代表"大坡度"的特征图更高的权重,从而生成一个更贴合实际路况的统一高度图。这种自适应的机制使得SC-Lane能够灵活处理各种复杂的道路几何,大大提升了高度估计的准确性和鲁棒性。 2. 高度一致性模块 (Height Consistency Module) 该模块用于在训练过程中给模型施加时序约束,让其学会生成稳定的预测结果。具体来说,在训练时,模块会获取模型在上一帧(t-1)预测的高度图,通过车辆的自车运动(ego-motion)信息将其变换到当前帧(t)的坐标系下。然后,它会计算这个"变换后"的旧高度图与"当前预测"的新高度图之间的一致性损失(L1 Loss)。  通过最小化这个损失,模型被"强制"学习生成在时序上连续、平滑的高度图,有效抑制了预测结果的抖动,使其更符合真实世界的物理规律。 实验结果与分析 研究团队在业界公认的大规模3D车道线检测基准OpenLane上对SC-Lane进行了全面评估。 SOTA性能表现 实验结果表明,SC-Lane在整体性能上超越了所有现有的方法,取得了 **64.3%** 的F-score,创造了新的SOTA记录。  在按场景划分的评测中,SC-Lane在绝大多数场景下(如上坡、下坡、弯道、拥堵等)都取得了最佳性能,充分证明了其强大的场景适应能力。  更严谨的评估标准 除了标准的F-score,作者还引入了在深度估计等领域常用但在车道线检测中较少使用的平均绝对误差(MAE)、均方根误差(RMSE)等指标,对道路高度估计的精度进行了更直接、更严谨的量化评估,为该领域的未来研究树立了新的标准。  下图的定性对比也直观地展示了SC-Lane(绿色)的预测结果相比其他方法,与真值(红色)更为接近,无论是在3D空间还是在BEV(鸟瞰图)视角下。  总结与贡献 SC-Lane通过引入坡度自适应和时序一致性两大创新,成功地解决了现有3D车道线检测方法在面对复杂路况和动态场景时的核心痛点。 其主要贡献在于: 1. **提出了坡度感知的自适应特征融合模块**,显著提升了模型对不同道路几何的鲁棒性。 2. **设计了高度一致性模块**,利用时序信息有效增强了预测结果的稳定性。 3. **在OpenLane基准上实现了新的SOTA性能**,并为道路高度估计任务建立了更完善的评估体系。 CV君认为,SC-Lane为自动驾驶感知系统提供了一个更准确、更鲁棒、更可靠的3D车道线检测方案。这项工作不仅在学术上刷新了技术水平,其对稳定性和一致性的关注也使其在工业界具有极高的应用价值。作者将公布项目主页和代码仓库,值得相关领域的研究者和工程师重点关注。 ##### #自动驾驶一些新趋势的变化... 八月份ICCV 2025有很多工作放出来了。xx团队为大家梳理了相关方向的中稿文章。整体来看,学术界和工业界研究的方向聚焦在以下几个方向: * VLM \& VLA:毋庸置疑,多模态大模型和VLA是今年最火的赛道,这两个月也有很多工作源源不断推出。对于自动驾驶VLA来说,Action定义在自车轨迹这一层级,主流范式遵循『预训练-微调-强化学习』三阶段的范式,通用自动驾驶VLM基础模型仍然缺失(自动驾驶视觉数据和大模型对齐),期待工业界持续的发力; * 闭环仿真 \& 世界模型:基于世界模型和3DGS的闭环仿真方向也是另一大热点,无论是基于重建的方法还是基于生成的方法,都可以应用于闭环仿真。受限于实车开环测试的局限性,闭环仿真也是这两年自动驾驶的刚需。一方面是降成本,另一方面是模型迭代效率。据xx了解,业内多家公司都在攻坚闭环仿真,但做的好的寥寥无几,当前的效果只能说是在『能用』的阶段,并且工业界聚焦在更细力度上的性能,不止是整体的重建效果,比如车道线、待转区、红绿灯、车灯、行人步态等等会影响自车行为的因素都是实际需要考虑的; * OCC和检测:OCC和检测还是有很多工作中稿的,但不在局限于『刷性能』,我们看到了很多细分方向的工作,OCC和世界模型、开集目标检测、检测+Mamba、OCC和Gaussion等等,这些相对成熟的方向正在深挖小的痛点和难点; 除此之外,MoE和自动驾驶的结合、自动驾驶的BenchMark、扩散模型轨迹生成等等也是值得关注的方向。**** **多模态大模型 \& VLA** * 标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation * 链接:https://arxiv.org/abs/2503.19755 * 主页:https://xiaomi-mlab.github.io/Orion/ * 单位:华科、小米  * 标题:All-in-One Large Multimodal Model for Autonomous Driving * 链接:https://arxiv.org/abs/2412.07689 * 主页:https://zhijian11.github.io/DriveMM/ * 单位:中山\&美团  * 标题:MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding * 链接:https://arxiv.org/abs/2507.06072 * 代码:https://github.com/SixCorePeach/MCAM * 单位:重庆大学  * 标题:AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving\\ * 主页:https://github.com/ReaFly/AdaDrive * 标题:VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving * 主页:https://github.com/ReaFly/VLDrive * 标题:ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models * 链接:https://arxiv.org/abs/2506.07725 * 主页:https://github.com/OpenDriveLab/ETA * 单位:科奇大学、港大、OpenDriveLab  **** **仿真 \& 重建** **** * 标题:Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images * 链接:https://arxiv.org/abs/2508.02323 * 主页:https://philippwulff.github.io/dream-to-recon * 单位:TUM  * 标题:CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving * 链接:https://arxiv.org/abs/2503.06744 * 主页:https://rruisong.github.io/publications/CoDa-4DGS/ * 单位:Fraunhofer IVI、TU Munich  * 标题:RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case * 链接:https://arxiv.org/abs/2508.04642 * 主页:https://stars79689.github.io/RoboTron-Sim/ * 单位:美团、中山大学  * 标题:InvRGB+L: Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling * 链接:https://arxiv.org/abs/2507.17613 * 单位:清华大学,伊利诺伊大学厄巴纳 - 香槟分校  * 标题:AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving * 链接:https://arxiv.org/abs/2507.12137 * 主页:https://jiaweixu8.github.io/AD-GS-web/ * 单位:南开大学,伊利诺伊大学厄巴纳 - 香槟分校  * 标题:BézierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting * 链接:https://arxiv.org/abs/2506.22099 * 主页:https://github.com/fudan-zvg/BezierGS * 单位:复旦大学,上海创新研究院  * 标题:RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors * 链接:https://arxiv.org/abs/2506.22800 * 主页:https://github.com/CN-ADLab/RGE-GS * 单位:清华大学,浙江大学,菜鸟网络  **端到端 \& 轨迹预测** * 标题:Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics * 链接:https://arxiv.org/abs/2507.12083 * 单位:香港科技大学,滴滴,卓驭科技  * 标题:Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model * 链接:https://arxiv.org/abs/2507.22615 * 单位:韩国DGIST智能系统与学习实验室等  **世界模型** * 标题:World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model * 链接:https://arxiv.org/abs/2507.00603 * 主页:https://github.com/ucaszyp/World4Drive * 单位:中国科学院自动化研究所,理想,新加坡国立大学等  * 标题:MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control * 链接:https://arxiv.org/abs/2411.13807 * 主页:https://github.com/flymin/MagicDrive-V2 * 单位:香港中文大学,华为诺亚方舟实验室等  * 标题:DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation * 链接:https://arxiv.org/pdf/2503.15208 * 主页:https://github.com/royalmelon0505/dist4d * 单位:清华大学,旷视科技等  * 标题:Driving View Synthesis on Free-form Trajectories with Generative Prior * 链接:https://arxiv.org/abs/2412.01717 * 主页:https://github.com/fudan-zvg/DriveX * 单位:复旦大学,萨里大学  * 标题:Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model * 链接:https://arxiv.org/abs/2412.05280 * 主页:https://github.com/wzzheng/Stag * 单位:北京大学,清华大学,北京航空航天大学  * 标题:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation * 链接:https://arxiv.org/abs/2501.14729 * 主页:https://github.com/LMD0311/HERMES * 单位:华中科技大学,香港大学等  * 标题:InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models * 链接:https://arxiv.org/abs/2412.03934 * 主页:https://github.com/nv-tlabs/InfiniCube * 单位:NVIDIA,上海交通大学,多伦多大学  * 标题:Epona: Autoregressive Diffusion World Model for Autonomous Driving * 链接:https://arxiv.org/pdf/2506.24113 * 主页:https://github.com/Kevin-thu/Epona * 单位:清华大学,地平线,北京大学  **占用网络** * 标题:Occupancy Learning with Spatiotemporal Memory * 链接:https://arxiv.org/abs/2508.04705 * 主页:https://matthew-leng.github.io/stocc * 单位:加利福尼亚大学  * 标题:GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting * 链接:https://arxiv.org/abs/2507.19451 * 主页:https://gs-occ3d.github.io/ * 单位:清华大学、上海期智研究院、BAAI等  * 标题:From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction * 链接:https://arxiv.org/abs/2507.13387 * 主页:https://github.com/ToyotaInfoTech/b2s-occupancy * 单位:丰田汽车公司  * 标题:Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion * 链接:https://arxiv.org/abs/2507.08555 * 主页:https://github.com/Enyu-Liu/DISC * 单位:华中科技大学  * 标题:Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion * 链接:https://arxiv.org/abs/2507.06230 * 主页:https://visinf.github.io/scenedino * 单位:慕尼黑工业大学,牛津大学等  * 标题:GaussRender: Learning 3D Occupancy with Gaussian Rendering * 链接:https://arxiv.org/abs/2502.05040 * 主页:https://github.com/valeoai/GaussRender * 单位:Valeo AI,索邦大学  * 标题:GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting * 链接:https://arxiv.org/abs/2408.11447 * 主页:https://ganwanshui.github.io/GaussianOcc/ * 单位:东京大学,华南理工大学等  * 标题:Language Driven Occupancy Prediction * 链接:https://arxiv.org/abs/2411.16072 * 主页:https://github.com/pkqbajng/LOcc * 单位:浙江大学、菜鸟网络等  * 标题:ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction * 链接:https://arxiv.org/abs/2411.07725 * 主页:https://github.com/cdb342/ALOcc * 单位:澳门大学,阿卜杜拉国王科技大学  **目标检测** * 标题:Rethinking Backbone Design for Lightweight 3D Object Detection in LiDAR * 链接:https://arxiv.org/abs/2508.00744 * 单位:德国伍珀塔尔大学TMDT研究所  * 标题:Perspective-Invariant 3D Object Detection * 链接:https://arxiv.org/abs/2507.17665 * 主页:https://pi3det.github.io * 单位:新加坡国立大学,复旦大学,中国科学院大学  * 标题:SFUOD: Source-Free Unknown Object Detection * 链接:https://arxiv.org/abs/2507.17373 * 主页:https://github.com/KU-VGI/SFUOD * 单位:韩国庆熙大学,韩国高丽大学  * 标题:MambaFusion: Height-Fidelity Dense Global Fusion for Multi-modal 3D Object Detection * 链接:https://arxiv.org/abs/2507.04369 * 主页:https://github.com/AutoLab-SAI-SJTU/MambaFusion * 单位:中国科学院自动化研究所、中国科学院大学、上海交通大学  * 标题:Towards Accurate and Efficient 3D Object Detection for Autonomous Driving: A Mixture of Experts Computing System on Edge * 链接:https://arxiv.org/abs/2507.04123 * 主页:https://github.com/LinshenLiu622/EMC2 * 单位:约翰霍普金斯大学,杜克大学,香港科技大学  * 标题:OcRFDet: Object-Centric Radiance Fields for Multi-View 3D Object Detection in Autonomous Driving * 链接:https://arxiv.org/abs/2506.23565 * 主页:https://github.com/Mingqj/OcRFDet * 单位:南京理工大学  **数据集** * 标题:Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives * 链接:https://arxiv.org/abs/2501.04003 * 主页:https://github.com/drive-bench/toolkit * 单位:加州大学欧文分校、上海AI Lab等  * 标题:ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones * 链接:https://arxiv.org/abs/2406.07661 * 主页:https://www.cs.cmu.edu/\~ILIM/roadwork_dataset/ * 单位:卡内基梅隆大学  * 标题:Where, What, Why: Towards Explainable Driver Attention Prediction * 链接:https://arxiv.org/abs/2506.23088 * 主页:ttps://github.com/yuchen2199/Explainable-Driver-Attention-Prediction * 单位:中山大学,新加坡国立大学  * 标题:Interaction-Merged Motion Planning: Effectively Leveraging Diverse Motion Datasets for Robust Planning * 链接:https://arxiv.org/abs/2507.04790 * 单位:韩国科学技术院,DGIST  * 标题:ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models * 链接:https://arxiv.org/abs/2506.07725 * 主页:https://github.com/opendrivelab/ETA * 单位:科奇大学,香港大学(中国)等  * 标题:Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving * 链接:https://arxiv.org/pdf/2503.21505 * 主页:https://github.com/Depth2World/VLADBench * 单位:中国科学技术大学,华为诺亚方舟实验室,加州大学伯克利分校  * 标题:DATAD: Driver Attention in Takeover of Autonomous Driving * 主页:https://github.com/OOPartsfili/DATAD-driver-attention-in-takeover-of-autonomous-driving  **其他** * 标题:Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection * 链接:https://arxiv.org/abs/2507.17436 * 单位:浙江大学,中兴通讯  * 标题:Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching * 链接:https://arxiv.org/abs/2507.10318 * 单位:西安交通大学  * 标题:Beyond One Shot, Beyond One Perspective: Cross-View and Long-Horizon Distillation for Better LiDAR Representations * 链接:https://arxiv.org/abs/2507.05260 * 主页:http://github.com/Xiangxu-0103/LiMA * 单位:新加坡国立大学\&南京航空航天大学\&浙大\&南邮  * 标题:Stronger, Steadier \& Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation * 链接:https://arxiv.org/abs/2504.12753 * 主页:https://github.com/anonymouse-xzrptkvyqc/DepthForge * 单位:集美大学,中山大学,西安电子科技大学等  ##### #都在聊轨迹预测,到底如何与自动驾驶结合? 扩散模型作为生成式AI的重要技术,近年来在自动驾驶领域展现出广泛的应用前景。该模型凭借其强大的多模态建模能力,能够从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新的解决方案。 * 在感知层面,基于扩散模型的三维占用预测方法显著优于传统判别方法,尤其在处理遮挡或低可见度区域时表现突出,生成的占用特征能有效支持下游规划任务。 同时,条件扩散模型被应用于驾驶场景的精准图像翻译,帮助系统更好地理解和适应各种道路环境。 * 在预测与决策方面,稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度的其他车辆运动轨迹预测结果,显著提升自动驾驶系统的预测能力。DiffusionDrive框架则利用扩散模型对多模态动作分布的建模能力,实现了端到端自动驾驶的创新应用,通过多模态锚点和截断的扩散机制处理驾驶决策中的不确定性。 * 数据生成是扩散模型另一重要应用方向,有效解决了自然驾驶数据集多样性不足、真实性与可控性受限的难题,为自动驾驶验证提供高质量合成数据。这类可控生成技术对解决3D数据标注挑战尤为重要,未来还将探索视频生成以进一步提升数据质量。 * 论文标题:Dual-Conditioned Temporal Diffusion Modeling for Driving Scene Generation * 主页链接:https://zzzura-secure.duckdns.org/dctdm * 代码链接:https://github.com/PeteBai/DcTDM * 工作单位:东北大学 ICRA2025美国东北大学中稿的最新工作!扩散模型已被证明在从学习到的分布中生成高质量图像方面非常有效,但其在时间域的应用,尤其是在驾驶场景中的应用,仍未得到充分探索。本文的工作通过扩展扩散模型来生成逼真的长时间驾驶视频,解决了现有仿真中的关键挑战,如数据质量有限、多样性和高成本。本文提出了双条件时间扩散模型(DcTDM),这是一种开源方法,通过引导帧转换来结合双条件来增强时间一致性。除了DcTDM,本文还推出了DriveSceneDDM,这是一个全面的驾驶视频数据集,包含文本场景描述、密集深度图和坎尼边缘数据。本文使用常见的视频质量指标对DcTDM进行了评估,结果表明,通过生成长达40秒、节奏一致且连贯的驾驶视频,DcTDM的性能优于其他视频扩散模型,在一致性和帧质量方面提高了25%以上! 算法概览:  主要实验结果:  * 标题:LD-Scene: LLM-Guided Diffusion for Controllable Generation of Adversarial Safety-Critical Driving Scenarios * 链接:https://arxiv.org/abs/2505.11247 * 作者单位:香港科技大学(广州),中山大学 为确保自动驾驶系统的安全性与鲁棒性,需在安全关键场景下进行全面评估。然而,此类场景在真实驾驶数据中稀缺且难以收集,对自动驾驶车辆的性能评估构成重大挑战。现有方法通常因可控性有限且依赖专家知识而缺乏用户友好性。为此,本文提出 LD-Scene------一种融合大语言模型(LLMs)与潜在扩散模型(LDMs)的新型框架,通过自然语言实现用户可控的对抗性场景生成。该框架包含一个学习真实驾驶轨迹分布的LDM,以及一个基于LLM的引导模块,后者将用户查询转化为对抗性损失函数,驱动生成符合用户需求的场景。引导模块集成基于LLM的思维链(CoT)代码生成器和代码调试器,提升了对抗场景生成的可控性、鲁棒性与稳定性。在 nuScenes 数据集上的实验表明,LD-Scene 在生成高对抗性、高真实性与多样性的场景中达到最先进性能,同时支持对对抗行为(如碰撞类型与强度)的细粒度控制,为定制化测试提供有效工具。 算法概览:  主要实验结果:  * 标题:DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion * 链接:https://www.arxiv.org/abs/2505.01857 * 作者单位:西安交通大学,中国科学技术大学 准确且高保真的驾驶场景重建依赖于充分挖掘场景信息作为条件输入。然而,现有方法主要使用3D边界框和二值图进行前景与背景控制,在捕捉场景复杂性和整合多模态信息方面存在明显不足。本文提出DualDiff,一种专为增强多视角驾驶场景生成而设计的双分支条件扩散模型。本文引入了语义丰富的3D表示------占用射线采样(Occupancy Ray Sampling, ORS),并结合数值驾驶场景表示,实现全面的前景与背景控制。为改善跨模态信息整合,本文提出了语义融合注意力(Semantic Fusion Attention, SFA)机制,用于对齐和融合跨模态特征。此外,本文设计了前景感知掩码(Foreground-aware Masked, FGM)损失函数,以增强微小目标的生成质量。DualDiff在FID分数上达到了最先进水平,并在下游的BEV分割和3D目标检测任务中始终取得更优结果。 算法概览:  主要实验结果:  * 标题:DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer * 链接:https://arxiv.org/abs/2504.00000 * 作者单位:清华大学,哈尔滨工业大学,理想 收集多视图驾驶场景视频以提升 3D 视觉感知任务的性能面临巨大挑战且成本高昂,这使得生成逼真数据的生成模型成为一种极具吸引力的替代方案。然而,现有研究生成的视频存在质量不佳和时空一致性差的问题,削弱了其在推动驾驶场景下感知任务发展中的作用。为解决这一差距,本文提出了 DiVE,这是一种基于扩散 Transformer 的生成框架,专门设计用于生成高保真、时间连贯且跨视图一致的多视图视频,能够与鸟瞰图布局和文本描述无缝对齐。具体而言,DiVE 利用统一的交叉注意力机制和 SketchFormer 对多模态数据进行精确控制,同时引入了不增加额外参数的视图膨胀注意力机制,从而保证视图间的一致性。尽管取得了这些进展,在多模态约束下合成高分辨率视频仍面临双重挑战:研究复杂多条件输入下的最优无分类器引导(CFG)配置,以及减轻高分辨率渲染中的过度计算延迟 ------ 这两者在先前研究中均未得到充分探索。为解决这些局限,本文引入了两项技术创新:(1)多控制辅助分支蒸馏(MAD),它简化了多条件 CFG 选择,同时规避了高昂的计算开销;(2)分辨率渐进采样(RPS),这是一种无需训练的加速策略,通过错开分辨率缩放来减少高分辨率带来的高延迟。这些创新共同实现了 2.62 倍的速度提升,同时几乎不损失性能。在 nuScenes 数据集上的评估表明,DiVE 在多视图视频生成方面达到了最先进的性能,生成的输出具有极高的真实感、出色的时间和跨视图连贯性。通过弥合合成数据质量与真实世界感知需求之间的差距,DiVE 建立了一个强大的生成范式,有望推动 3D 感知系统的重大进步。 算法概览:  主要实验结果:  * 标题:DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models * 链接:https://arxiv.org/abs/2503.05808 * 作者单位:上海交通大学,长安汽车 交通仿真已成为自动驾驶训练与测试的重要工具。尽管当前数据驱动方法提升了行为生成的逼真度,但其学习过程仍主要依赖单一真实数据集,限制了场景多样性,进而阻碍下游算法优化。本文提出 DriveGen------一种基于大模型的新型交通仿真框架,可生成多样化交通场景并支持定制化设计。DriveGen 包含两个核心阶段: * 初始化阶段:利用大语言模型(LLM)与检索技术生成地图及车辆资产; * 推理阶段:通过视觉语言模型(VLM)选取路径点目标,结合定制扩散规划器输出轨迹。 该两阶段框架充分运用大模型对驾驶行为的高层认知与推理能力,在保持高真实性的同时,实现超越数据集的多样性。为支持高效下游优化,本文进一步开发 DriveGen-CS------一种自动生成极端案例(Corner Case)的流程,其利用驾驶算法的失败案例作为大模型的提示知识,无需重新训练或微调。实验表明,生成场景与极端案例的质量均优于现有基线;下游实验进一步验证,DriveGen 合成的交通数据能更优地提升典型驾驶算法性能,证明了框架的有效性。 算法概览:  主要实验结果:  * 标题:Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments * 链接:https://arxiv.org/abs/2503.22496 * 项目主页:https://princeton-computational-imaging.github.io/scenario-dreamer 本文提出Scenario Dreamer,一种完全数据驱动的自动驾驶规划生成仿真器。Scenario Dreamer的核心是一种新颖的向量化潜在扩散模型,用于初始场景生成,相比先前采用栅格化场景编码的方法具有显著的实际优势。实验表明,Scenario Dreamer在真实性和效率方面优于现有生成仿真器:向量化场景生成基础模型以约2倍更少的参数、6倍更低的生成延迟以及10倍更少的GPU训练小时数,实现了优于最强基线的生成质量。本文通过实验证实其实际效用:强化学习规划代理在Scenario Dreamer环境中比在传统非生成仿真环境中面临更大挑战,尤其是在长距离和对抗性驾驶环境中。贡献包括:(1) 本文引入Scenario Dreamer,这是一种完全数据驱动的自动驾驶规划生成仿真器。Scenario Dreamer的核心是一种新颖的向量化潜在扩散模型,用于初始场景生成,相比先前利用栅格化场景编码的方法具有实际优势。(2) 本文证明Scenario Dreamer环境对强化学习规划器构成挑战,特别是在长距离和对抗性驾驶环境中。 算法概览:  主要实验结果:  * 标题:DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance * 链接:https://arxiv.org/abs/2503.03689 * 项目主页:https://github.com/yangzhaojason/DualDiff * 作者单位:西安交通大学,浙江大学,中国科学院自动化研究所等 精确且高保真的驾驶场景重建需要有效利用全面的场景信息作为条件输入。现有方法主要依赖 3D 边界框和BEV道路图来控制前景和背景,但其无法捕捉驾驶场景的全部复杂性,也不能充分融合多模态信息。在本研究中,本文提出了 DualDiff,一种双分支条件扩散模型,旨在提升多视角和视频序列的驾驶场景生成效果。具体而言,本文引入占用率射线形状采样(ORS)作为条件输入,其提供丰富的前景和背景语义信息以及 3D 空间几何结构,以精确控制两者的生成。为改善细粒度前景目标(尤其是复杂和远处目标)的合成效果,本文提出了前景感知掩码(FGM)去噪损失函数。此外,本文开发了语义融合注意力(SFA)机制,以动态优先处理相关信息并抑制噪声,实现更有效的多模态融合。最后,为确保高质量的图像到视频生成,本文引入奖励引导扩散(RGD)框架,以维持生成视频的全局一致性和语义连贯性。大量实验表明,DualDiff 在多个数据集上实现了最先进(SOTA)的性能。在 NuScenes 数据集上,与最佳基线相比,DualDiff 将 FID 分数降低了 4.09%。在下游任务中,如 BEV 分割,本文的方法将车辆 mIoU 提升了 4.50%,道路 mIoU 提升了 1.70%;在 BEV 3D 目标检测中,前景 mAP 提高了 1.46%。 算法概览:  主要实验结果:  * 标题:AVD2: Accident Video Diffusion for Accident Video Description * 链接:https://arxiv.org/pdf/2502.14801 * 项目主页:https://an-answer-tree.github.io/ * 作者单位:香港科技大学,AIR,吉林大学等 交通事故对自动驾驶系统提出了复杂挑战,其不可预测性常导致系统难以精准解析与响应。然而,由于事故场景训练数据的匮乏,现有方法难以阐明事故成因并提出预防策略。为此,本文提出 AVD2(事故视频扩散描述框架),该框架通过生成与详细自然语言描述及推理对齐的事故视频,增强事故场景理解能力,并构建 EMM-AU(增强型多模态事故视频理解)数据集。实验表明,集成 EMM-AU 数据集后,模型在自动化指标与人工评估中均达到 SOTA 性能,显著推动了事故分析与预防领域的发展。 算法概览:  主要实验结果:  * 标题:Causal Composition Diffusion Model for Closed-loop Traffic Generation * 链接:https://arxiv.org/abs/2412.17920 * 项目主页:https://sites.google.com/view/ccdiff/ * 作者单位:卡内基梅隆大学,伊利诺伊大学香槟分校等 本文提出CCDiff(因果组合扩散模型),旨在提升自动驾驶领域闭环安全关键场景生成中的可控性与真实性。基于约束因子化马尔可夫决策过程(constrained factored MDP)的框架,CCDiff首先识别智能体间的潜在因果结构,然后将该结构融入场景编码器,并基于因果知识对智能体的重要性进行排序,从而提升生成场景的真实性。CCDiff同时采用因果组合场景编码与分解式引导策略,有效解决了可控性与真实性目标间的梯度冲突问题。在基准数据集和闭环仿真器中的严格评估表明,CCDiff在生成真实且符合用户偏好的轨迹方面显著优于现有最先进方法。实验结果证实CCDiff在提取和利用因果结构方面的有效性,基于碰撞率、偏离道路率、最终位移误差和舒适距离等关键指标,展示了改进的闭环性能。 算法概览:  主要实验结果:  * 标题:Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation * 链接:https://arxiv.org/abs/2502.12178 * 作者单位:浦项科技大学,NAVER LABS 基于扩散的模型在利用真实世界驾驶数据生成真实且多样的交通场景方面的有效性已得到认可。这些模型采用引导采样来整合特定的交通偏好并增强场景真实性。然而,引导采样过程以符合交通规则和偏好可能导致偏离真实世界交通先验,进而可能产生不真实的行为。为解决这一挑战,本文提出了一种多引导扩散模型,该模型采用新颖的训练策略,即使在使用多种引导组合时也能紧密贴合交通先验。该模型采用多任务学习框架,使单个扩散模型能够处理各种引导输入。为提高引导采样精度,本文使用直接偏好优化(DPO)算法对模型进行微调。该算法基于引导分数优化偏好,有效应对引导采样微调过程中昂贵且常不可微分的梯度计算所带来的复杂性和挑战。在 nuScenes 数据集上的评估表明,本文的模型为平衡交通场景生成中的真实性、多样性和可控性提供了强有力的基准。 算法概览:  主要实验结果:  * 标题:SceneDiffuser: Efficient and Controllable Driving Simulation Initialization and Rollout * 链接:https://arxiv.org/pdf/2412.12129 * 项目主页:https://sjyu001.github.io/MuDi-Pro/ * 作者单位:Waymo LLC 逼真且交互式的场景仿真是自动驾驶开发的关键前提。本文提出 SceneDiffuser,一种面向交通仿真的场景级扩散先验模型。该模型提供统一框架,解决仿真的两个核心阶段:场景初始化(生成初始交通布局)与场景推演(智能体行为的闭环仿真)。尽管扩散模型已被证明能有效学习逼真且多模态的智能体分布,但仍存在可控性、闭环仿真真实性及推理效率等挑战。为此,本文引入分摊扩散仿真技术。这一新型扩散去噪范式将去噪计算成本分摊至未来仿真步骤中,显著降低单步推演成本(推理步数减少16倍),同时缓解闭环误差。本文进一步通过广义硬约束(一种高效推理时约束机制)及基于大语言模型(LLM)少样本提示的约束化场景生成提升可控性。模型扩展研究表明,增加计算资源可显著提升整体仿真真实性。在Waymo开放仿真智能体挑战赛(WOSAC)中,本文的方法在开环性能上达到最优,并在扩散模型中取得最佳闭环性能。 算法概览:  主要实验结果:  * 标题:DiffRoad: Realistic and Diverse Road Scenario Generation for Autonomous Vehicle Testing * 链接:https://arxiv.org/abs/2411.09451 * 作者单位:上海交通大学,新加坡国立大学 生成真实且多样化的道路场景对于自动驾驶车辆的测试和验证至关重要。然而,由于真实世界道路环境的复杂性和多变性,为智能驾驶测试创建真实且多样化的场景具有挑战性。本文提出DiffRoad,一种新型扩散模型,旨在生成可控制且高保真的3D道路场景。DiffRoad利用扩散模型的生成能力,通过逆向去噪过程从白噪声中合成道路布局,保留真实世界的空间特征。为提高生成场景的质量,本文设计了Road-UNet架构,优化主干网络和跳跃连接之间的平衡,以实现高真实感的场景生成。此外,本文引入了一个道路场景评估模块,该模块使用两个关键指标------道路连续性和道路合理性------筛选适合智能驾驶测试的充分且合理的场景。在多个真实世界数据集上的实验结果表明,DiffRoad能够生成真实且平滑的道路结构,同时保持原始分布特性。此外,生成的场景可以完全自动化转换为OpenDRIVE格式,便于通用的自动驾驶车辆仿真测试。 算法概览:  主要实验结果:  * 标题:Data-driven Diffusion Models for Enhancing Safety in Autonomous Vehicle Traffic Simulations * 链接:https://arxiv.org/abs/2410.04809 * 作者单位:芬兰阿尔托大学等 安全关键交通场景是自动驾驶系统开发与验证的核心组成部分。这些场景能为车辆在现实世界中罕见的高风险条件下的响应提供关键见解。近年来,在关键场景生成领域的进展表明,与传统生成模型相比,基于扩散模型的方法在有效性和真实性方面具有显著优势。然而,当前基于扩散模型的方法未能充分解决驾驶员行为复杂性和交通密度信息的问题,而这两者均对驾驶员的决策过程有重要影响。在本研究中,本文提出了一种新颖的方法来克服这些局限性,通过为扩散模型引入融合行为复杂性和交通密度的对抗性引导函数,从而增强更有效、更真实的安全关键交通场景的生成。所提方法通过有效性和真实性两个评估指标进行评价,结果表明,与其他最先进的方法相比,该方法具有更优的效能。 算法概览:  主要实验结果:  * 标题:AdvDiffuser: Generating Adversarial Safety-Critical Driving Scenarios via Guided Diffusion * 链接:https://ieeexplore.ieee.org/abstract/document/10802408 * 作者单位:中山大学,武汉大学,中国科学院自动化研究所等 安全关键场景在自然驾驶环境中虽不常见,但对自动驾驶系统的训练与测试至关重要。当前主流方法通过对自然环境引入对抗性调整,在仿真中自动生成安全关键场景。然而,这些调整通常针对特定被测系统设计,缺乏跨系统的可迁移性。本文提出 AdvDiffuser------一种基于引导扩散的对抗性框架,用于生成安全关键驾驶场景。该框架结合扩散模型捕捉背景车辆的合理群体行为,并利用轻量级引导模型有效处理对抗场景,从而提升可迁移性。在 nuScenes 数据集上的实验表明:AdvDiffuser 基于离线驾驶日志训练,仅需极少量预热回合数据即可适配多种被测系统,且在真实性、多样性和对抗性表现上均优于现有方法。 算法概览:  主要实验结果:  * 标题:DrivingGen: Efficient Safety-Critical Driving Video Generation with Latent Diffusion Models * 链接:https://ieeexplore.ieee.org/document/10688119 * 标题:SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic * 链接:https://arxiv.org/abs/2403.17933 * 项目主页:https://github.com/autonomousvision/sledge * 作者单位:图宾根大学 SLEDGE是首个基于真实驾驶日志训练的用于车辆运动规划的生成式仿真器。其核心组件是一个能够生成智能体边界框和车道图的可学习模型。该模型的输出作为基于规则的交通仿真的初始状态。SLEDGE需要生成的实体具有独特的属性,例如它们的连通性和每场景可变的数量,这使得直接应用大多数现代生成模型到此任务上变得非平凡。因此,结合对现有车道图表示的系统研究,本文引入了一种新颖的光栅到矢量的自编码器(raster-to-vector autoencoder)。它将智能体和车道图编码到光栅化潜在地图(rasterized latent map)中的不同通道。这促进了基于车道条件的智能体生成,以及使用扩散Transformer(Diffusion Transformer)联合生成车道和智能体。在SLEDGE中使用生成的实体可以实现对仿真的更大控制,例如对转弯进行上采样或增加交通密度。此外,SLEDGE可以支持500米长的路线,这一能力在现有的数据驱动仿真器(如nuPlan)中是不存在的。它为规划算法提出了新的挑战,当在由本文的模型生成的困难路线和密集交通上进行测试时,2023年nuPlan挑战赛的获胜者PDM的失败率超过40%。与nuPlan相比,SLEDGE的设置所需的存储空间减少了500倍(\<4 GB),使其成为一个更易于访问的选择,并有助于推动该领域未来研究的普及化。 算法概览:  主要实验结果:  * 标题:SceneControl: Diffusion for Controllable Traffic Scene Generation * 链接:https://waabi.ai/scenecontrol/ * 作者单位:wabbi ICRA 2024中稿的工作。我们考虑了交通场景生成的任务。自动驾驶行业的一种常见方法是使用人工创建来生成具有特定特征的场景,并使用自动生成来大规模生成规范场景。然而,人工创建不可扩展,而自动生成通常使用基于规则的算法,这些算法缺乏真实感。在本文中,我们提出了SceneControl,一个用于可控交通场景生成的框架。为了捕捉真实交通的复杂性,SceneControl从数据中学习了一个表现力强的扩散模型。然后,通过引导采样,我们可以灵活地控制采样过程,以生成具有所需特征的场景。我们的实验表明,SceneControl比现有的最先进技术具有更高的真实性和可控性。我们还说明了如何将SceneControl用作交互式交通场景生成的工具。 算法概览:  * 标题:Versatile Behavior Diffusion for Generalized Traffic Agent Simulation * 链接:https://arxiv.org/abs/2404.02524 * 项目主页:https://sites.google.com/view/versatile-behavior-diffusion * 作者单位:南洋理工大学,普林斯顿大学,NVIDIA 现有交通仿真模型往往难以捕捉现实世界场景的复杂性,限制了对自动驾驶系统的有效评估。本文提出了通用行为扩散(VBD)框架,这是一种新颖的交通场景生成框架,它利用扩散生成模型在闭环环境中预测场景一致且可控的多智能体交互。VBD 在 Waymo 仿真智能体基准测试中实现了最先进的性能,能够在多样的环境条件下有效生成具有复杂智能体交互的真实、连贯的交通行为。此外,VBD 通过基于行为先验和模型优化目标的多步细化,支持推理时的场景编辑。这种能力支持可控的多智能体行为生成,可满足各种交通仿真应用中的广泛用户需求。尽管仅在代表典型交通条件的公开数据集上训练,本文引入的冲突先验和博弈论引导方法仍能生成交互式、长尾安全关键场景 ------ 这对自动驾驶车辆的全面测试和验证至关重要。最后,本文深入探讨了基于扩散的交通场景生成模型的有效训练和推理策略,强调了最佳实践和常见陷阱。本文的工作显著提升了仿真复杂交通环境的能力,为自动驾驶技术的开发和评估提供了强大工具。 算法概览:  主要实验结果:  * 标题:GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model * 链接:https://arxiv.org/abs/2408.15868 * 作者单位:哥伦比亚大学 自动驾驶训练需涵盖多样交通状况、天气场景及道路类型的数据集。传统数据增强方法难以生成表征罕见事件的数据。为此,本文提出 GenDDS ------一种基于先进隐扩散模型 Stable Diffusion XL (SDXL) 的驾驶场景生成方法。该方法通过描述性提示(prompt)引导合成过程,生成逼真且多样化的驾驶场景。结合最新计算机视觉技术(如 ControlNet 和 Hotshot-XL),本文构建了完整的视频生成流程,并利用真实驾驶视频数据集 KITTI 训练模型。实验表明,该模型可生成高质量驾驶视频,精准复现真实驾驶场景的复杂性与多变性。本研究为自动驾驶系统提供了先进的训练数据生成方案,并为仿真验证的虚拟环境创建开辟了新途径。 算法概览:  主要实验结果:  * 标题:GEODIFFUSION: Text-Prompted Geometric Control for Object Detection Data Generation * 链接:https://arxiv.org/pdf/2306.04607 * 项目主页:https://kaichen1998.github.io/projects/geodiffusion/?spm=a2ty_o01.29997173.0.0.1300c921gCBBTX * 作者单位:香港科技大学,华为诺亚方舟实验室,南京大学等 扩散模型因其卓越的内容生成能力而在图像分类等任务的数据生成方面引起了广泛关注。然而,利用扩散模型生成高质量的目标检测数据仍然是一个探索不足的领域,在该领域中不仅需要关注图像级的感知质量,还需满足边界框和相机视角等几何条件。 先前的研究主要采用复制粘贴合成方法或具有特定设计模块的布局到图像(L2I)生成方法来编码语义布局。本文提出了GEODIFFUSION,这是一个简单框架,能够灵活地将各种几何条件转换为文本提示,并赋能预训练的文本到图像(T2I)扩散模型进行高质量检测数据生成。 与先前的L2I方法不同,本文的GEODIFFUSION不仅能够编码边界框,还能够编码自动驾驶场景中的额外几何条件(如相机视角)。大量实验表明,GEODIFFUSION在保持训练时间快4倍的同时,性能优于先前的L2I方法。据本文所知,这是首次采用扩散模型进行具有几何条件的布局到图像生成,并证明L2I生成的图像有助于提高目标检测器性能的工作。 算法概览:  主要实验结果:  * 标题:Text2Street: Controllable Text-to-image Generation for Street Views * 链接:https://arxiv.org/abs/2402.04504 * 作者单位:美团 随着扩散模型的兴起,文本到图像生成取得了显著进展。然而,基于文本生成街景图像仍是一项难题,主要挑战源于:1)复杂的道路拓扑(如交叉路口结构、符合交规的车道线数量),2)多样的交通状态(如指定数量的车辆 / 行人及其合规布局),3)多变的天气条件(如雨天、夜间光照)。传统模型因缺乏细粒度控制能力,难以同时满足上述约束(如图 1 所示,微调后的 Stable Diffusion 仍无法准确生成指定车道数和车辆数的场景)。 本文提出Text2Street 框架,通过三阶段实现可控生成: * 车道感知道路拓扑生成器:结合计数适配器(Counting Adapter),将文本描述(如 "3 车道")转化为包含精确道路结构和合规车道线的局部语义地图,解决传统模型因图像遮挡导致的道路信息缺失问题; * 基于位置的目标布局生成器:通过目标级边界框扩散策略,在语义地图约束下生成符合交通规则的目标布局(如 "4 车 1 卡车" 的位置和方向),突破传统模型对数量控制的不敏感问题; * 多控制图像生成器:融合投影后的道路语义掩码、目标布局和天气文本,通过 ControlNet 和位置编码实现多条件协同控制,最终生成符合交规、数量精准且场景一致的街景图像。 实验表明,Text2Street 在 nuScenes 数据集上显著优于 Stable Diffusion 等模型(车道计数准确率提升 14.91%,目标计数准确率提升 16.5%),验证了其在复杂街景生成中的可控性和有效性。 算法概览:  主要实验结果:  * 标题:SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries * PDF:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03157-supp.pdf * 标题:Panacea: Panoramic and Controllable Video Generation for Autonomous Driving * 链接:https://arxiv.org/abs/2311.16813 * 作者单位:中国科学技术大学,旷视科技等 自动驾驶领域对高质量标注训练数据的需求日益增长。本文提出 Panacea------一种创新方法,用于生成驾驶场景中的全景可控视频,可产生无限量多样化的标注样本,对自动驾驶发展至关重要。Panacea 解决了两个核心挑战: * 一致性:确保时间连续性与跨视角连贯性; * 可控性:保证生成内容与标注(如鸟瞰图布局)精确对齐。 该方法融合了新型 4D 注意力机制 与 两阶段生成流程 以维持一致性,并通过 ControlNet 框架 实现对鸟瞰图(BEV)布局的精细化控制。在 nuScenes 数据集上的定性与定量实验表明,Panacea 能高效生成高质量多视角驾驶场景视频。本工作通过增强 BEV 感知技术的训练数据,显著推动了自动驾驶领域发展。 算法概览:  主要实验结果:  * 标题:Scenario Diffusion: Controllable Driving Scenario Generation With Diffusion * 链接:https://neurips.cc/virtual/2023/poster/72611 * 作者单位:Zoox 自动生成合成交通场景是验证自动驾驶车辆(AV)安全性的关键环节。在本文中,我们提出了场景扩散(Scenario Diffusion)这一基于扩散的新架构,用于生成交通场景,并实现了场景生成的可控性。我们结合了潜在扩散、目标检测和轨迹回归,以同时生成合成智能体姿态、方向和轨迹的分布。为了对生成的场景进行额外控制,该分布以地图和描述所需场景的标记集为条件。我们证明,我们的方法具有足够的表达能力,能够模拟多种交通模式,并可推广到不同的地理区域。 算法概览:  主要实验结果:  * 标题:Language-guided traffic simulation via scene-level diffusion * 链接:https://research.nvidia.com/labs/avg/publication/zhong.rempe.etal.corl23/ * 作者单位:英伟达 真实且可控的交通仿真技术是加速自动驾驶车辆(AV)开发的核心能力。然而当前控制基于学习的交通模型的方法需要深厚的领域专业知识,对于从业者而言难以使用。为解决这一问题,我们提出了CTG++,这是一种场景级条件扩散模型,可通过语言指令进行引导。开发这一模型需要应对两大挑战:一是需要一个真实且可控的交通模型主干;二是需要一种有效的方法来使用语言与交通模型进行交互。为应对这些挑战,我们首先提出了一种配备时空Transformer主干的场景级扩散模型,该模型能够生成真实且可控的交通。然后,我们利用大型语言模型(LLM)将用户的查询转换为损失函数,引导扩散模型生成符合查询要求的交通。通过综合评估,我们证明了所提方法在生成真实且符合查询要求的交通仿真方面的有效性。 算法概览:  主要实验结果:  * 标题:DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model * 链接:https://arxiv.org/abs/2310.07771 * 项目主页:https://drivingdiffusion.github.io/ * 作者单位:百度 随着基于强大且统一的BEV表示的自动驾驶技术日益普及,对高质量、大规模且具有精确标注的多视角视频数据的需求变得尤为迫切。然而,由于采集和标注成本高昂,此类大规模多视角数据难以获取。 为缓解这一问题,本文提出了一种时空一致的扩散框架DrivingDiffusion,用于生成由3D布局控制的真实多视角视频。 在给定3D布局合成多视角视频时存在三个主要挑战:如何保持1)跨视角一致性;2)跨帧(时间)一致性;3)如何保证生成实例的质量?本文的DrivingDiffusion通过级联多视角单帧图像生成步骤、多摄像头共享的单视角视频生成步骤以及可处理长视频生成的后处理步骤来解决这些问题。在多视角模型中,通过相邻摄像头之间的信息交换确保多视角图像的一致性。在时序模型中,本文主要从第一帧的多视角图像中查询后续帧生成所需关注的信息。本文还引入了局部提示(local prompt)来有效提高生成实例的质量。在后处理中,本文通过采用时序滑动窗口算法进一步增强后续帧的跨视角一致性并扩展视频长度。无需额外成本,本文的模型能够在复杂城市场景中生成大规模真实多摄像头驾驶视频,为下游驾驶任务提供支持。 算法概览:  主要实验结果:  * 标题:MagicDrive: Street View Generation with Diverse 3D Geometry Control * 链接:https://arxiv.org/abs/2310.02601 * 项目主页:https://flymin.github.io/magicdrive * 作者单位:香港中文大学,香港科技大学,华为诺亚方舟实验室 近年来,扩散模型的进步显著提升了 2D 条件下的数据合成能力,但自动驾驶场景中至关重要的3D 几何精确控制(如高度、遮挡、路面高程)仍存在挑战。现有方法依赖鸟瞰图(BEV)作为主要条件,导致几何控制(如高度)失效,影响 3D 感知任务(如 3D 目标检测)的数据质量。 本文提出MAGICDRIVE,一种新型街景生成框架,通过定制化编码策略,融合相机位姿、道路地图、3D 包围盒及文本描述,实现多样化 3D 几何控制。框架设计了跨视图注意力模块,确保多相机视角一致性。实验表明,MAGICDRIVE 能生成高保真街景图像 / 视频,捕捉细微 3D 几何特征(如车辆高度、路面起伏),显著提升 BEV 分割和 3D 目标检测任务性能。与现有方法(如 BEVGen、BEVControl)相比,MAGICDRIVE 通过分离前景(3D 包围盒)与背景(道路地图)编码,避免了 BEV 投影导致的几何信息丢失,同时支持天气、时间等场景属性控制。 算法概览:  主要实验结果:  * 标题:DriveSceneGen: Generating Diverse and Realistic Driving Scenarios From Scratch * 链接:https://arxiv.org/abs/2309.14685 * 项目主页:https://ss47816.github.io/DriveSceneGen/?spm=a2ty_o01.29997173.0.0.52b1c921UxJtUj * 作者单位:新加坡国立大学 大量真实且多样化的交通场景对于自动驾驶系统的开发和验证至关重要。然而,由于数据收集过程中的诸多困难以及对密集标注的依赖,真实世界数据集缺乏足够的数量和多样性来满足日益增长的数据需求。本工作提出了DriveSceneGen,一种数据驱动的驾驶场景生成方法,该方法从真实驾驶数据集学习并从零开始生成完整的动态驾驶场景。DriveSceneGen能够以高保真度和多样性生成与真实世界数据分布一致的新型驾驶场景。在5000个生成场景上的实验结果突显了与真实世界数据集相比的生成质量、多样性和可扩展性。据本文所知,DriveSceneGen是首个从零开始生成包含静态地图元素和动态交通参与者的新型驾驶场景的方法。 算法概览:  主要实验结果:  * 标题:BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout * 链接:https://arxiv.org/abs/2308.01661 * 作者单位:天津大学,天津大学,西湖大学等 利用合成图像提升感知模型性能是计算机视觉领域的长期挑战。在以视觉为中心的多摄像头自动驾驶系统中,该问题尤为突出,因为某些长尾场景难以通过实际采集获取。现有生成网络在BEV分割布局的引导下,虽在场景级指标下能合成逼真的街景图像,但放大后常无法生成准确的前景(如车辆朝向)和背景细节。为此,本文提出一种两阶段生成方法 BEVControl,可精确控制前景与背景内容。与分割式输入不同,BEVControl支持草图式输入,更便于人工编辑。此外,本文提出一套多层级评估协议,综合衡量生成场景、前景目标及背景几何的质量。大量实验表明:BEVControl在前景分割mIoU上显著超越当前最优方法BEVGen(5.89→26.80);使用其生成图像训练下游感知模型,NDS指标平均提升1.29。 算法概览:  主要实验结果:  * 标题:DiffScene: Guided Diffusion Models for Safety-Critical Scenario Generation * 链接:https://openreview.net/forum?id=hclEbdHida * 作者单位:伊利诺伊大学厄巴纳-香槟分校、CMU等 自动驾驶(AD)领域近年来取得了显著进展。在所面临的各种挑战中,自动驾驶车辆(AV)的安全评估尤为关键。传统评估方法既昂贵又低效,往往需要大量的行驶里程才能遇到罕见的安全关键场景,而这些场景分布在复杂现实世界驾驶场景的长尾区域。在本文中,我们提出了一种统一的方法------基于扩散的安全关键场景生成(DiffScene),用于生成既真实又安全关键的高质量安全关键场景,以实现高效的自动驾驶评估。具体而言,我们提出了一个基于扩散的生成框架,利用扩散模型近似低密度空间分布的能力。我们设计了多个对抗性优化目标,以在预定义的对抗性预算下指导扩散生成。这些目标,如基于安全的目标、基于功能的目标和基于约束的目标,确保在遵守特定约束的同时生成安全关键场景。我们进行了大量实验来验证我们方法的有效性。与6个最先进的基线方法相比,DiffScene生成的场景(1)在3个指标上更具安全关键性,(2)在5个距离函数上更真实,(3)对不同自动驾驶算法更具可转移性。此外,我们还证明了,与基线方法相比,使用DiffScene生成的场景训练自动驾驶算法在安全关键指标方面表现显著提升。这些发现凸显了DiffScene在解决自动驾驶安全评估挑战方面的潜力,为更高效、更有效的自动驾驶开发铺平了道路。 算法概览:  主要实验结果:  * 标题:Generating Driving Scenes with Diffusion * 链接:https://arxiv.org/abs/2305.18452 * 作者单位:Zoox,麻省理工学院 本文提出了一种交通场景生成的习得方法,旨在仿真自动驾驶汽车感知系统的输出。在本文受潜在扩散启发的 "场景扩散"(Scene Diffusion)系统中,本文创新性地结合了扩散模型与目标检测,直接生成具有现实性和物理合理性的智能体离散边界框布局。本文的场景生成模型能够适应美国不同的地区,生成的场景能够捕捉每个地区的复杂特征。 算法概览:  主要实验结果:  * 标题:Guided Conditional Diffusion for Controllable Traffic Simulation * 链接:https://aiasd.github.io/ctg.github.io/ * 作者单位:NVIDIA、斯坦福等 ICRA2023中稿的工作! 可控且逼真的交通仿真对于开发和验证自动驾驶车辆至关重要。典型的基于启发式的交通模型提供灵活的控制,使车辆能够遵循特定的轨迹和交通规则。另一方面,数据驱动的方法能够生成逼真且类似人类的行为,从而改善从仿真到真实交通的迁移。然而,据我们所知,尚无交通模型同时具备可控性和逼真性。在本文中,我们开发了一种用于可控交通生成(CTG)的条件扩散模型,该模型允许用户在测试时控制轨迹的期望属性(例如,到达目标或遵守限速),同时通过强制动力学保持逼真性和物理可行性。关键技术思想是利用扩散建模和可微逻辑的最新进展,引导生成的轨迹满足使用信号时态逻辑(STL)定义的规则。我们进一步将引导扩展到多智能体设置,并启用基于交互的规则,如避免碰撞。CTG在nuScenes数据集上针对多种复合规则进行了广泛评估,在可控性与逼真性的权衡方面,其表现优于强大的基线模型。 算法概览:  主要实验结果:  ##### #自动驾驶论文速递- 视觉重建、RV融合、推理、VLM等 **Dream-to-Recon** 基于扩散-深度蒸馏的单目图像三维场景重建 慕尼黑工业大学团队提出 Dream-to-Recon,首次实现仅需单张图像训练的单目3D场景重建。该方法创新性地结合预训练扩散模型与深度网络,通过三阶段框架: 1)视图补全模型(VCM):基于ControlNet微调StableDiffusion-2.1,利用前向后向变形生成逼真遮挡修复(PSNR ↑23.9,Table 2); 2)合成占据场(SOF):融合多虚拟视角深度图构建连续3D几何表示,在遮挡区域重建精度(IE_acc)达72%\~73%(Table 1),超越多视角监督方法2%\~10%; 3)轻量蒸馏模型:将生成几何转化为实时推理网络,在KITTI-360/Waymo上整体精度(O_acc)达90%\~97%,推理速度70倍提升(75ms/帧),且成功重建动态物体(图3)。 该方法为自动驾驶与机器人提供无需复杂传感器标定的高效三维感知新范式。 * 论文标题:Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images * 论文链接:https://arxiv.org/abs/2508.02323 * 项目主页:https://philippwulff.github.io/dream-to-recon **主要贡献:** * 专门的视图补全模型(View Completion Model, VCM):设计了一种基于ControlNet的扩散模型,能够仅使用单张图像进行训练,有效完成遮挡区域填充并消除扭曲图像中的伪影,解决了现有扩散模型在自动驾驶场景中应用的域适应问题。 * 合成占用场(Synthetic Occupancy Field, SOF)表征:提出了一种从多个合成视图构建密集3D场景几何的公式化方法,通过二进制占用场表示场景几何,能够有效处理不可见区域的重建。 * 单视图场景重建模型:通过将合成的高质量3D场景几何蒸馏(distill)到轻量级前馈网络中,实现了仅需单张图像输入的实时3D重建,性能匹配甚至超越了依赖多视图监督的最先进方法,特别在处理动态场景方面具有独特优势。 算法框架:   实验结果:   可视化:   **SpaRC-AD** 面向端到端自动驾驶的RV融合基线框架 慕尼黑工业大学团队提出首个雷达-相机融合的端到端自动驾驶框架 SpaRC-AD,通过稀疏3D特征对齐与多普勒测速技术,在nuScenes基准上实现3D检测mAP提升4.8%、跟踪AMOTA提升8.3%、运动预测mADE降低4.0%、轨迹规划L2误差降低0.11m。 * 论文标题:SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving * 论文链接:https://arxiv.org/abs/2508.10567 * 代码:https://phi-wol.github.io/sparcad/ **主要贡献:** 1. 提出首个基于雷达的端到端自动驾驶基线,在关键基准数据集上实现了性能突破。 2. 扩展稀疏融合设计,支持检测、跟踪和规划查询的协同优化。 3. 基于雷达的整体融合策略在多项任务中实现显著提升:3D 检测(+4.8% mAP)、多目标跟踪(+8.3% AMOTA)、在线地图构建(+1.8% mAP)、运动预测(-4.0% mADE),同时优化了轨迹预测一致性(-9.0% TPC)和仿真成功率(+10.0%)。 4. 在 open-loop nuScenes 和 closed-loop Bench2Drive 等多个基准上完成了全面评估,并通过定性分析验证了其在增强感知范围、提升运动建模精度和恶劣环境鲁棒性上的优势。 算法框架:   实验结果:   可视化:   **Reasoning in Computer Vision** 五大类别的统一框架、模型演进与评估挑战 本综述为视觉推理建立首个跨范式统一框架,揭示当前方法在开放环境泛化性和评估可靠性上的不足,呼吁社区向多模态因果基准与自适应弱监督学习演进,以推动安全关键领域(自动驾驶/医疗)的可信AI发展。 * 论文标题:Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies * 论文链接:https://arxiv.org/abs/2508.10523 **主要贡献:** 1. 提出统一的视觉推理分类框架,将关系推理、符号推理、时序推理、因果推理和常识推理五大类型整合,系统关联方法、任务与评估指标,揭示不同推理范式的内在联系与差异。 2. 整合新兴研究方向(如多模态思维链推理、视觉推理基础模型、跨任务基准数据集更新)到比较思维推理框架中,评估其技术优势、适用范围与局限性。 3. 提出下一代视觉推理系统的前瞻性研究议程,指出当前方法在可扩展性、跨域泛化、弱监督下的可解释性等方面的不足,并明确符号与亚符号推理融合、跨域自适应架构设计、多类型推理基准测试等研究方向。 算法框架:   实验结果:   可视化:   **STRIDE-QA** 面向城市驾驶场景时空推理的大规模视觉问答数据集 图灵、筑波大学等团队构建了目前最大规模自动驾驶时空推理VQA数据集STRIDE-QA(100小时数据/285K帧/16M QA对),通过多传感器自动标注实现厘米级几何精度,微调模型时空定位成功率(MLSR)达55.0%。 * 论文标题:STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes * 论文链接:https://arxiv.org/abs/2508.10427 * 项目主页:https://turingmotors.github.io/stride-qa/ **主要贡献:** 1. 定义了三个新颖的以自我为中心的视觉问答(VQA)任务,联合要求空间定位和短期预测推理,解决自动驾驶系统在复杂交通场景中的核心挑战。 2. 提出 STRIDE-QA 数据集,这是一个大规模数据集,包含 1600 万条问答对,在 28.5 万帧城市驾驶视频上进行密集标注,支持 VLMs 在细粒度空间和短期时间推理上的有监督训练,且这些推理基于真实交通动态。 3. 实验表明,现有通用 VLMs 在时空推理上表现不佳,而在 STRIDE-QA 上微调的模型性能显著优于基线,其中最优模型 STRIDE-Qwen2.5-VL-7B 达到当前最佳性能,证明该数据集对驾驶场景时空理解的有效性。 算法框架:   实验结果:   可视化:   ##### #理想VLA司机大模型新的36个QA 分享一下理想汽车自动驾驶高级算法专家詹锟和湛逸飞最近接受的媒体采访QA,介绍了一个理想做VLA的思路和方法论,欢迎大家一起交流学习\~ **Q1:近期行业内普遍存在一种观点,认为短期内VLA模型很难落地,主要提出三个难点:多模态对齐难、数据训练难、VLA模型部署在单个芯片上比较难。想请教您如何看待这三个难点?** 詹锟:VLA落地难相对于之前的模型确实更难,但并不代表它不能落地。特别是随着现在新的芯片(包括SOC等支持FP8、FP4算力芯片)的应用,VLA的部署其实没那么难了,或者说有机会解决。 另外,关于VLM/VLA的对齐问题。大家也看到昨晚GPT-5发布了,现在大模型的能力已经非常强,达到了专家级的智力。其实对齐问题其实也在逐步解决,如果现在还说对齐难,这个话题就显得有些初级了,它并不是不能对齐。 当然,自动驾驶有自动驾驶的难度。特别是我们刚才提到的3D空间理解,这可能是跟传统的VLM模型不太一样的地方。自动驾驶本质是空间物理行为,所以它对三维有更好的理解。我们有很多的方法来专门把3D的空间理解放到我们的VLA模型里面来对齐,通过"3D局部空间+2D全局理解"的特点来实现对齐。3D局部的空间+2D的全局理解是我们这个VLA模型的一个特点,包括贾鹏老师也在GTC上详细讲了我们当时是怎么做的,这个就是我们来解决的思路。 再者是单芯片部署问题。刚才也详细提到我们做了大量工作。从去年开始,我们就实现了双系统VLM在Orin上的部署,2.2B参数的模型也是业界首个,这背后是长期的积累。我们与英伟达进行了深度交流,重新编写了PTX的CUDA底层算子,开发了自研引擎,仅依靠他们提供的TensorRT特定集是无法实现的。这些都是我们工程积累的成果。现在业界也有很多在宣传VLA,我相信他们同样会找到落地方法。所以难是相对的,但都是可以解决的。  **Q2:当时VLM不用Diffusion去生成轨迹,是什么原因?以及现在VLA用Diffusion的方式是否参考了特斯拉的做法,还是理想自己独立想出这种方案的?** 詹锟:VLA当时我们设计的是双系统方案,去年的方案是One model,旁接一个并联的VLM,所以VLM这里不太能再接一个Diffusion,这两个完全的冲突。我们当时的思想就是慢系统是通过你的决策、逻辑引导你的Action模型去输出,形成了这样的架构,所以VLM不可能再带一个单独的Action。 现在我们为什么加入这个设计?可以看到此前VLA(视觉-语言模型)是并联一个L(语言/逻辑模块)的,而当前的VLA(视觉-语言-动作模型)相当于把并联的L模块整合到了主链路中,VLA必须是串联的,这种串联设计使得每一步计算都具备自主思考能力,其思考深度由模型自行判断,就像现在的大模型一样,存在thinking(思考)与no thinking(非思考)的过程。 有了这个以后,我们一定要有一个输出方法,以前端到端,因为算力问题、技术判断问题,当时没有做最早的Diffusion扩散模型,但是我们也看到了机器人,机器人领域是最早开始大规模使用扩散模型来做行为轨迹的,最早叫Diffusion policy,就是来自于机器人的,包括我们后来也看到谷歌的机器人论文都是用Diffusion的。 我们在这里做了大胆的尝试,可以看到从今年年初开始,自动驾驶领域包括我们自己的论文也有很多做Diffusion的结果,而且指标是非常好的。通过去年年底到今年年初的这些预研,我们就坚定了Diffusion是完全可行而且性价比很高的一个路线。当然这也回应了之前马斯克说过的,他们现在用了很多类似于扩散模型的东西,现在回想起来确实是一样的,但是我们并不是完全跟随马斯克的思路,而是我们自己也探索了一些预研和深刻的研究,我们才选择这个方向。  **Q3:VLA较VLM感知端的能力是否有进步呢?以及这个感知端主要是哪些场景比较会有瓶颈?** 詹锟:这个就是我们最开始说的这次VLA的"V"是3D空间理解+全局语义,其实我们在上一代的双系统的时候给大家画的架构图也很清楚,只有在VLA端到端的模型里面是有3D空间的编码和理解,但是在VLM其实是个全局语义理解,相当于在这次架构中我们把V这部分同时加入了3D和全局语义理解,进行了整合,所以使现在我们的综合理解上既有空间,又有全局环境的感知,是架构的升级才能实现对应的能力。 其实也可以看到很多之前的大模型,如果你问VLM,这个物体离我有多少米其实是很难回答的,因为它只有一个2D输入,对3D空间感知是不足够的。现在我们加了很多类似这样的数据以后,我们专门的V部分的3D编码具备了这样的能力。  **Q4:今天不管是体验的巴士,还是看到的世界模型,感觉与Robotaxi L4级玩家的强化学习路线有相似之处,尤其巴士的表现很像Robotbus,前后台已很接近。理想从L2到L4的渐进路线,与直接做L4的玩家有什么区别?** 詹锟:先回答第一个问题,你问的这个问题就是问特斯拉和Waymo有什么区别,所有人都在观察这个问题,特斯拉拿出来的反击就是它扩城速度非常快,现在奥斯汀已经远远超过Waymo的营运区域,马上加州也要超过Waymo的营运区域。对于我们来说也是一样的,我们从L2往L4走,一开始是全部场景都能让你用,你越用越好,逐渐达到Robotaxi无人化的水平。 因为我之前也是做Robotaxi出身的,我最早的时候也是在一个区域内尝试过把这个算法做精,但是我只能在这个区域做。我有很大的算力、很高精度的传感器设备、先验地图,这样在扩城的时候会非常慢。对于车企来说这个是不太现实的,因为我们不是运营商,我们是希望服务于更多客户,甚至是全球客户,我希望用户能在那里逐渐得到更好的驾驶体验和自动驾驶的服务,这样的路径肯定是不一样的。 虽然现在形态看上去逐渐趋同,这是因为现在L2水平逐渐在往更高级别做,所以看上去趋同,但是技术原理和技术本质是不一样的,包括我们这里区域仿真、全场景的无图,我们现在是VLA模型,包括上一代端到端,我们一个先验信息、先验地图都没有用,这是跟Robotaxi玩家有很大的区别。这就是大家在赌自己技术的预判和趋势了,我们相信肯定是沿着这个路径能服务更多的人。  **Q5:我个人感觉理想自己判断出来强化学习用于自动驾驶是非常重要,我感觉这个点对理想资源投入VLA非常有帮助,不知道您这边是否同意这个观点?还有人认为李想在理想自动驾驶的作用是类似于马斯克在特斯拉自动驾驶的作用,这点您同意吗?** 湛逸飞:其实我刚才已经大致介绍了一下,今年我们加了很多的推理卡,就是为了做强化,因为强化训练是推理跟训练要轮流来的,不再是一个单纯的训练过程,所以我们需要储备大量的推理卡。所以第一个问题答案是肯定的,强化训练一定会在VLA里起到很重要的作用。 第二个问题也是肯定的,李想在自动驾驶的发展上提供了非常多的支持。  **Q6:以后VLA的模型规模、性能等都会提升,比如说你们现在是4B的,以后有可能变成7B、8B、10B,比如到8B之后,又该怎么解决模型上车的问题?以及目前芯片的推理帧率对于模型上车的影响到底有多大?** 詹锟:大家可以看到一个规律,就是大模型在去年一年的发展中,在同等智力水平下,推理性能提升了10倍,这是大模型的发展规律。其实对应到端侧来说也是一样的,甚至提升幅度更大。因为端侧的优化有非常多的细节可以做,特别是在垂域场景。比如我们做自动驾驶,很多语言的理解其实可以做简化、做压缩。刚才展示的较长过程主要是为了演示,实际内部我们会压缩大量语言信息,再通过转译呈现为人类可理解的内容,这些压缩技术正是我们上车实现的细节洞察。 具体到这里还有一个,随着模型规模持续扩大,我们的芯片能力也会同步提升。明年、后年,芯片将形成自身的算力Scaling Law,对应的模型效果也会越来越好。 另外需要强调的是,大家不要低估我们算法架构和训练架构的优化空间,即使模型参数量保持7B不变,我们仍能通过优化让智力进一步提升。具体来说,通过更大的模型、更优的蒸馏、更好的数据配比,实现模型智力的持续增强。  **Q7:我们看到这次释放了很多有用户强感知的一些功能,比如说像是语音控车、内部道路漫游这种功能,我想问的是如果它不采用VLA这种架构,有没有一些笨办法也可以达到类似的体验,比如说你们可以做到95分,它可能做到80分,但是它也能上去,因为我们看到过去在国内的这些驾驶中是比较容易出现用笨办法来实现一个类似功能的情况?** 詹锟:如果没升级技术栈,可能在部分场景下比如做个demo,它可能是可以的,但是你上它推全量,比如我们的地库漫游、园区漫游,你真的不去理解标识牌,它可能要不在建一个图的地方给你秀一下,要么就是我提前给你准备好的路线上试一试,推广到全部用户身上是很难实现的,至少在技术上我觉得不太可行。只有你升级了架构,你才真正能普及更多的用户,以前如果你用高精地图的方式给大家推送城市,它肯定是有限的,不是说城市做不好,甚至有可能比无图肯定要好,但是一个是比如地图变了以后,体验瞬间降低,有很多安全问题、事故问题,但是另外一个就是你没法普及更多的人,这肯定不是我们想看到的,因为我们用户这么广泛,100多万辆的车,希望给大家都带来一致好的体验,所以我们只能升级技术。  **Q8:高速上我自己感觉,比如说有很多场景可能在决策的时候会比较犹豫,这是上一代模型的问题。这代有没有大幅度提升?第一个是有没有提升?第二个是如果有提升的话,是靠什么做到的?是靠强化学习还是靠对齐?** 詹锟:我觉得你问的这个问题就是他们的评测,我们也仔细分析了,我们内部也在思考这个问题,也看到了很多这样的数据,就是思考这些问题为什么会出现有些摇摆,要避让它是横向绕行它还是减速,会出现一些反复,导致要么没刹的特别准,要么距离拉的不够开,上一代软件是有这样的问题。这次我们也是对这类场景做了专门的优化,至少我们去把它加到了世界模型仿真平台里面去看它。 首先我们在内部来看相比上一代的版本有一些很好的结果,另外一个就是我们这次主要还是通过Language的思考,是希望它的决策更稳健、更一致,而不是像去年的模型一样,我看到一个东西下意识做出一个反应,它有可能会出现摇摆、抖动,还是跟它的数据配比特别相关,如果有Language的决策以后,它会好一些,就可以知道我之前做了这个决策,我下次要一直做这个决策,或者这个场景我们做一个稳定的判断。  **Q9:还是懂车帝的那个问题,我看完之后的第一个感受是城区和高速不是一张网------包括绝大多数车企可能都不是一张网,可能大家这几年很"卷",因为城区驾驶场景更复杂,所以把更多精力放在了城区,高速还是以目标检测等基础能力为主。这个是我最大的感受。不过这个可能不需要前提,比如至少得是VLA或端到端模型才能做到。早上试驾时也跟产品老师聊过,我相信我们现在是一张网了,会针对高速场景做很多优化。具体是在哪些点?高速其实更规则一点,无非就是有一些小问题,现在这些小问题会很占用我们的精力吗?** 詹锟:高速和城区其实是一张网,可能只是任务的输出表现不同,但绝大部分模型是统一的。当然,驾驶策略细节和功能性设计会有差异------到现在VLA也是完全的一张网。不过我们会通过不同prompt引导模型产生不同的驾驶倾向,特别是当高速、城市场景的数据配比不同时,模型在高速和城区的表现会有区别,这也是VLA的特性之一。 另外,你说会不会投入很多研发精力?答案是肯定的。高速场景非常重要------Waymo这么多Robotaxi,高速功能还未完全释放,因为高速事故虽概率低,但后果往往很严重。所以我们在这方面的投入一直很多,特别是高速的安全问题,比如超远距离的兜底能力,需要做深做透,追求极致提升。相比之下,城区更强调灵活性,但对事故严重性和超视距准确性的要求没那么高。因此,我们有不同的研发分工,部分同学会专注于持续精进高速场景的能力。  **Q10:从技术端的判断,我们解决上一代VLM在懂车帝测试中未实现的一些迭代问题,比如决策、超视距、算力限制、临时快速识别、系统低延迟决策等,大概需要多长时间?** 詹锟:我觉得我们这代VLA,湛逸飞他们之前做了很多世界模型,已经在懂车帝的测试上验证了排名有大幅提升。这次i8发布时,就已经有相对显性的变化------这个架构是分几步走的,从现在的仿真评测看,已经在端到端7.5版本的基础上往上提升了,所以它的起点就是这个版本。我们会花3-6个月把这个版本继续快速迭代,把上限打出来。 特别是这一次有很多新东西,希望能引起行业共鸣和新的想法:比如语音交互和记忆功能。当真正无人化后,没有语音交互,车就没法控制------你不可能上去拨杆调速度,只能通过交流让车理解你的指令。另外,记忆功能很重要,每个人的需求是千人千面的。做端到端时,会发现不同人对"这里要不要超车"的回答至少有五种:有人觉得该让,有人觉得该变道,有人觉得该等,差异很大。所以我们需要通过记忆和自学习,让车逐渐和VLA大模型更交融。这样也会产生用户粘性------和以前的"即用即走"功能不同,现在可能和用户有更深刻的交流。 **Q11:我想问一下关于VLM这种以模仿学习作为主导的话,三点掉头这种方式是否不太可行,主要是因为VLM的我觉得表现没有很好,这个是什么原因导致的呢?** 詹锟:我们为什么VLA才给大家释放三点掉头?我们没有释放三点掉头,不是没有做过。本质原因是两个: 第一,Diffusion可以拟合任何多模态的轨迹,三点掉头直接放进去的时候会发现模型自己能知道掉到一半不行,它还有个回折倒车的轨迹在往前走,它自己首先能理解一个多模态全场景的行为。 第二,什么时候启用三点掉头?不能在直行等车排队突然来个倒挡,这就需要有一个很好的决策和思考,所以我们觉得只有这几个具备了以后,释放给用户才是可行的,所以VLA我们才逐渐用这个方法。 **Q12:我想问一下,第一个就是前面讲到了极端工况,刚才讲到临时的施工包括锥桶这种建模能力感觉不是很精准,我指的是感知和建模,感知是发现了这个东西,实际上建模就是这个模型是否稳定,能够给出很精确的距离,包括你感知到了一个车,它其实是个事故车,刚开始感知到了,后面判断它到底是一个前车还是一个事故车,这些问题上在技术上到底是什么样的难点?** 詹锟:我这么理解的,首先你说一些施工、很小的锥桶或者异形物,这里存在几个难点: 第一个难点是视觉可感知的精准度够不够。相机分辨率毕竟有限,哪怕现在用的是800万像素的相机,从120°的视角来看,这些小物体的像素覆盖还是很小。就算硬件能捕捉到这些细节,还存在计算力的问题------能不能把所有微像素的信息都处理掉?这涉及到感知视野的范围、视觉编码器的强度,而这些直接关联到芯片算力。毕竟我们需要做大量工程化优化,才能让模型处理如此多摄像头传来的复杂数据。 第二个难点是综合理解的问题。施工相关的场景我们确实有专门的数据,但里面存在很多歧义。这些歧义连GPT-4o都可能判断不准------比如施工区域是否会对行驶产生干扰?这到底是施工场景,还是车辆在等车?举个例子,之前在中关村看到过,晚上9点下班时,滴滴司机打着双闪、打开后备厢在路边等人,这种情况模型可能会误以为是事故。训练数据里存在out label者清洗不彻底的问题,导致模型判断容易偏移。 另外,这类极端场景的数据本身就比较少,我们需要不断调配模型能力,提升它对这类场景的泛化识别能力。之前因为VLM的帧率或模型大小限制,处理这类场景的速度较慢;现在通过VLA优化,模型每帧都能进行类似的思考和判断,能力已经提上来了。 **Q13:目前直接输出油门、方向盘电信号的难点主要在什么地方?** 詹锟:这个我们还是实话实说,我觉得直接出油门和方向盘信号这个不一定是合适的,本质原因是任何一个自动驾驶信号适配不同车型,底盘、硬件、执行器都不一样,如果你让模型适配各个硬件环境其实是一个完全冗余的设计,更合适的方式还是输出精准的轨迹,再让一个标准的模型去适配不同的底盘,我还是坚信这个路径是更好的。 **Q14:VLA的迭代范式是跟之前有比较大的区别,我理解现在我们这个范式非常靠近于大模型的范式,我知道我们应该还有一个在自动驾驶外的基模团队,我们跟这个基模团队是怎么样的一个配合方式?** 詹锟:刚刚你看到的湛逸飞说的5个训练方式,第一个阶段就是陈伟(理想汽车基座模型负责人)基座团队来做的,我们这个基座团队主要是解决两类大问题,第一类问题就是我们怎么在校园学习基本知识,我们怎么把更好的通识能力有一些交规知识、驾驶的基本知识教给它,这就是我们的基座团队在做的事情。然后同时会有不同大小的模型,有的供云端,有的供车端,它会进行蒸馏。 第二个很重要的是它这个模型一定是特殊架构适配我们的硬件,其实从想哥的AI Talk里面也能看到,我们这个车上面是一个特殊的MoE模型,叫8×0.4,这是任何开源模型都没有的,只有我们有,这样特殊的结构其实非常有利于芯片的部署,任何直接用开源的模型,比如拿千问的模型都是更不好部署的,要不就是容量比较低,要不就是部署效率比较低。所以基座模型跟我们有这样一个好的合作,它会在基座模型的选型设计上也符合我们的需求,我们是一个紧密配合的组织。 **Q15:无论是刚才讲到DeepSeek还是千问,现有的一些开源模型本身不具备三维场景的理解能力,我理解一种可能的原因是它们本身互联网公司不具备三维数据资产,比如说他们有可能通过仿真去做合成数据,或者说可能有一天专门做大模型的公司,他们的基座模型本身具备了三维场景的能力,这个从技术上来说是可行的或者说是可能的吗?** 湛逸飞:做机器人的肯定是要做的。 詹锟:现在的大模型是叫虚拟世界的AI,就是Agent,computer use都是虚拟世界的,它这里面基本上都是2D的,除了一些游戏可能有点3D空间。当你进入到物理AI的时候你发现全都是3D的,如果这个公司不做这个业务,它不了解这个业务,别说仿真了,它可能都不了解哪些是它关键3D信息,包括他启动3D空间物理世界模型的这个能力可能都不具备。如果他们想要做一定是有相关的业务合作,我们也是跟基座模型非常紧密的合作,我们会把很多3D数据端到端积累的和早期积累的数据都会进行一个融合,包括合成数据里面有很多3D空间的东西都会给到基座团队,这样它才有可能具备3D空间能力。但是作为一个纯的虚拟视觉大模型公司可能这个能力是比较欠缺的,或者说他现在的重心不在这里。 **Q16:所以我理解可能这不是技术上的难点,更多是业务需求,可以这样理解吗?** 詹锟:是,但是技术上也会很难,因为3D空间的数据比2D难很多。 投资人:从之前端到端积累下来的高质量的带有标注的数据到了VLA之后,在数据闭环的处理过程中比如说拿标注这个环节来讲是有多少需要重刷重标的,或者说这个过程是一个需要多长时间的事情? 湛逸飞:可以说是都重刷,因为你的标注内容是发生了一些变化,可能同样的一条数据,你在做端到端时候的标注方式跟做VLA是完全不一样的,所以我们就需要重刷,当然这个重刷速度取决于你有多少推理卡。 **Q17:我们早上试驾时体验了一些基础智驾能力,比如靠边停车,这些现在应该已经准备就绪了。今年3月在GTC上展示的拍照等功能,您觉得大概的发布节奏是怎样的?** 詹锟:拍照这个受某些事件的影响不太能放,这个能力是可以具备的,但是不太能全量推这个东西,还在商量中,根据国家法规在一起迭代。 **Q18:其实我们现在完全离车的功能就是召唤?** 詹锟:召唤这个其实也有很多限制,这个要等正式的发布才能看到,国家对召唤其实有很严格的限制。这次给大家体验就是这个意思,能力上其实我们还有很多可以释放,但是我们要跟着法规一起来迭代、一起来研究,我们才敢释放,还是要遵从国家的法规。 **Q19:它的法规到底是看到我们的能力会往前推,还是其实它是比较独立的意见?** 詹锟:我觉得这可能是一个综合的,一个是能力去推动法规一起,另外一个我们要参与标准的制定,理想汽车也是一起跟政府合作来做这些事情,我们是相互推动的一个事情,首先能力不达到,政府也不会放,能力达到怎么跟政府沟通,政府肯定有他的关注点和顾虑。 **Q20:你怎么去消除他的疑虑?他的顾虑是所有的头部车企整体的水平还是别的?** 湛逸飞:这是一个很综合的问题,比如安全问题、就业问题很多的问题,所以我们可能不太能代表政府怎么想。但是我们能做的就是我们在这一天到来之前,尽可能地提升自己的能力,这一天到来以后,我们可以尽快地去释放。 詹锟:对,我们是把能力先储备好了。 **Q21:随机换吗?** 湛逸飞:不是随机换,如果我们哪天发现有一个场景其实是很有价值的,我们就会找一批跟它很像的加进去,就能看它的能力。 投资人:早上试驾时发现,我问理想同学"前面是什么车",希望得到"卡车"或"奔驰"这样的回答,但目前这个功能好像还没释放出来? 詹锟:这个功能目前我们不在AD域里面来做,我们会放在理想同学里面来做,这个能力其实是具备的,包括你试试超过前面的这个卡车,它会精准地告诉你前面有辆卡车,在不在我这个道上,我是变道加速还是直接加速都会有这个能力。但是你问这是什么车,我们认为它还不是一个智驾任务,这个完全是产品导向,我们也可以后续需要把它更综合的问答都放进来,我们也会再做,包括想哥在发布会也说了我们会有小理师傅,理想同学和小理师傅会有些特定的区分,它主要本质就是小理师傅希望是控车的,理想同学更多是综合的问答。 这是一个产品导向的事情,不是什么特别技术导向的事情。很早这个功能很多车企都有了,但是一问没人用,这个功能有什么用,这个事情就是个伪需求,纯炫技的,所以我们没有在这上面做特别多的东西,我们还是希望能把用户真正想用的功能做好。 **Q22:EID界面长得像仿真视频有可能吗?** 湛逸飞:我们现在EID的渲染可能大家只能看到一些车辆模型,像车道线、红绿灯,其实这个渲染也是要消耗驾舱芯片的算力,如果想在EID上能看到像仿真的更加细的颗粒度,其实要用更大的算力,本质就是如果我们驾舱芯片的算力足够了,它是完全可以实现的。 **Q23:咱们实现所谓的人机共驾,其实是通过您刚才讲到的语音交互,从小鹏的demo来看,它是通过方向盘的变动来实现所谓的人机共驾,从你们来看这个到底是交互方式的不同还是底层能力的不同?** 湛逸飞:底层的不同,能听懂人话跟方向盘是信号,完全不一样。它可能出来都是一些规则实现的指令。 詹锟:方向盘只是在现有的基础上强行的干预。 **Q24:我们看到特斯拉FSD V13是展现出来一定的漫游能力,所以说我们能这样下一个判断说FSD V13可能大概率是一个类似于VLA的架构,虽然可能特斯拉从来没有官方说过这件事情,就是从它展现出来的能力可以做这样的合理倒推吗?** 詹锟:我觉得是个好问题,我个人感觉他还没有用Language应该是真的,它虽然已经上车的这些还是偏语音交互,它还是一个主Vision和Action的模型。 **Q25:若FSD V13未用Language模型,如何解释其脱困能力和陌生道路漫游?** 湛逸飞:漫游端到端就能做,但是寻路是需要VLA的,我们刚刚展现的是它能找出口,但是特斯拉如果只是纯漫游,它就在地库一直转,出不去。 **Q26:其实也看到了一些他们在FSD V13的视频,它找出口偶尔能做到。** 湛逸飞:那就是运气,比如正好在这个路口左拐它出去了,但是我们找出口的过程是在EID上能看见的。 詹锟:这可能是技术路线的选择,我也不好说它下一代V14是不是就会加入类似Language的能力,还不好说,有没有可能是过往类似的方向去做,比如它的Optimus同一套技术栈,这是很有可能的。 **Q27:这个图跟带宽是什么样的线性或者是非线性的换算呢?比如说你现在要跑一个4B的FP8至少吃150GB左右的带宽,如果降到FP4的话大概吃到什么程度?** 詹锟:带宽和精度其实是两个事情,我们在去年做Orin上部署的时候,我们当时就说我们用了int4量化,这个量化其实不是代表计算用int4,并不是,而是在模型做内存带宽转移的时候,我们先把原来FP16的算子变成了int4,然后通过一个你可以理解为矩阵压缩,压缩成了一个低精度,然后放进GPU里面以后,我们又把它用反序列化变成一个高精度数值,然后进行FP16的计算,这个是一个精度的量化。但是刚刚我们说的那个计算的精度量化,比如FP4的计算指的是我进来的时候把这个算子就是带着FP4做矩阵乘加,这个精度审的是你computer time,那个只审传输time,到这里面我们用多少的量化另说,比如说我们量化可能还是用的FP8,过来以后只是计算降了,但是并没有降传输,这个地方我们是组合使用的,我们也是用的int4,但是不是所有。 这个地方就像DeepSeek一样,大家也看到它们用FP8训练不是每一层都敢用的,这个就是量化大家要做的事情,就是你要精细调优每一层,你来看哪些能量化、哪些不能量化,哪些损失大、哪些损失小,我们要把损失小的才能用更小的精度来做量化,损失大的我们就不会动。 **Q28:我们会有一个担心,可能算力一直不够用,或者像您刚刚说可以用两年、三年,到时候带宽不一定。** 詹锟:所以我们要在同等模型下提升它的智力。 **Q29:两个性能你得取个公约数,最后发现单算算力还能用三年,两个都考虑可能只能用一年、两年了。** 詹锟:所以我刚刚说的是一套模型两种部署,比如你去SOC上部署是算力大、带宽小,双Orin是算力小、带宽大,所以你在部署的时候可以做不同量化权衡的,它是一个模型,只是我最后推理的时候做一次转化而已,并不会增加额外的成本,而是一个部署方案而已,所以我们会做这样的适配。 **Q30:我能不能理解为靠强化学习去提升?** 詹锟:强化学习也是一方面,因为强化学习也是我们训练步骤的一部分,更重要的是训练完以后也会在世界模型里面去做验证、迭代,主要还是这类问题之前并没有特别关注,确实测得很切中要害,非常极端,特别难,不让你避,而且速度不是很一致,它会让你的模型有些疑惑的情况。 湛逸飞:您观察的是很仔细的,就是它的右后侧有一辆车,但是那个速度控的一直让我们在变道跟不变道之间。 **Q31:我能不能这样理解,其实我们高速做了很多年,做到现在为止我们仍然面临着一个相对比较棘手的问题,其实就是超视距的问题,其他基本没太大的问题?** 詹锟:对,施工突然改道的那种情况,我们能不能比别的公司做得更好。 投资人:还有一个关于仿真的问题。我刚才看到咱们的数据,到今年基本都是仿真的,但仿真可能存在过拟合风险------比如测的4000多万公里里,可能有部分是过拟合数据,不如真实数据好用。考虑到这点,现在仿真数据的真实性大概能有多少比例贴近真实数据? 湛逸飞:首先仿真数据只是用来评测,您刚才讲的那个我们叫合成数据,并不是所有都用合成数据,只占10%,主要应用于一些我们难以收集的比如像雪天、事故车这种相对特殊的场景我们才用,90%多还是正常的数据。 您说4000多公里会不会过拟合,这4000多公里并不是说我们就这么一批场景一直跑,我们库里有几十万clips的仿真场景,不停地在换。 **Q32:现在语音控车会有一些笨办法可以体验到,因为语音控车我感觉是用户很强感的事情。** 詹锟:如果语音控车只是简单几个指令,比如说左变道、右变道,这种用一个基本的ASR的语音识别,它可以转成普通的信号。但是如果我们想做更复杂的比如连续的指令任务,左转再变道,后面变道后直行,这种就不好做了,就非常难,组合式的任务对规则来说是非常复杂的,它是一个指数级的复杂度,所以它的扩展性也会降低。还是这句话,如果秀两个demo,笨办法是可行的,但是从长远来看这不是一个长久之计。 湛逸飞:这个你可以用很多方法去检查,就是同一个指令换不同的说法,如果它不认识了就说明它是规则,但是同一个指令有很多种说法说,它都能理解,可能就是有语言模型。 **Q33:为什么我们要自己做基模这个事情?我记得技术大会上当时有一页PPT,在我们之前双系统的时候,VLM是一个二维场景的理解能力,我理解可能是因为千问本身不具备三维场景的理解能力,现在基模团队会在第一个预训练的过程中去解决这个问题吗?** 詹锟:会的,我们在第一阶段就加了3D信息,我们是紧密合作,我们数据相关的共享和技术栈的共享是非常紧密的。 **Q34:刚才您提到"3D空间+2D全局理解",为什么不是3D全局理解?** 詹锟:这是跟目前的技术栈相关,3D空间我们需要把一个七路摄像头转换成3D空间的一个编码,这个3D空间编码一定带有空间深度信息的,它缺少的就是一个完整的,我们叫视锥视图(Perspective View),所以很多的算法如果只带有3D空间理解就缺少了全局语义,因为有些视角你要从不同角度去看它,它才能有更多的信息提取。 所以我们这个设计就是一张图同时进行了3D编码和2D编码,我们组合在了一起形成了一个特殊的视觉token,我们专门设计了这样不同的关注项,同时提升它的全局和3D理解,这也是现在机器人有些公司也有往类似的方向做。 **Q35:刚刚您讲到识别上主要是受限于摄像头,其实在这些事情上面对于激光雷达是比较难产生作用的是吗?** 詹锟:没有,激光雷达也很有用,特别它对3D空间的理解,但是你说两三米外有一个小凸起,激光雷达确实能看到这些反射,但是光靠激光雷达去置信它也挺有挑战的,所以我们现在是个前融合方案,就是视觉和激光雷达会放在一个模型里面,它们抽取特征以后会混合在一起来判断它,这样可能置信度更高,相互佐证。 **Q36:现在来看随着整个智驾的发展,关键人物在整个技术迭代的过程中作用力或者影响力有多大?** 詹锟:这个东西相辅相成的,时势造英雄,关键人物肯定是能起到关键的推动,OpenAI的Alec Radford如果不去坚持做GPT,可能后面还会有人做,比如谷歌,但是我觉得时间周期不会差特别远,可能是半年、一年、两年,但是是有些关键人去把这个推波助澜出来。 我觉得最重要的随着AI的局势,随着国家的能力、国家基础设施的提升,中国目前可以做的这么好,不是一两个人出来的,而是这么多年基础教育的积累这么多的工程师,人和基础能力都很重要,中国现在基本上在AI落地这块还是非常领先的,但是你说基础科学这部分我们确实还在追赶,包括基础创新能力这也是美国自己的优势,这些东西不是一两个人能决定的,而是一个行业的大势、一个时代的大势。 ##### #xxx ##### #xxx ##### #xxx