文献阅读篇#15:自动驾驶中的基础模型:场景生成与场景分析综述(6)

**文章标题:**Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis

(翻译)自动驾驶中的基础模型:场景生成与场景分析综述

文章发表于预印本:Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis

续:文献阅读篇#10:自动驾驶中的基础模型:场景生成与场景分析综述(1)-CSDN博客 & 文献阅读篇#11:自动驾驶中的基础模型:场景生成与场景分析综述(2)-CSDN博客 & 文献阅读篇#12:自动驾驶中的基础模型:场景生成与场景分析综述(3)-CSDN博客 & 文献阅读篇#13:自动驾驶中的基础模型:场景生成与场景分析综述(4)-CSDN博客 & 文献阅读篇#14:自动驾驶中的基础模型:场景生成与场景分析综述(5)-CSDN博客

八、指标、数据集、模拟器和基准挑战

在本节中,我们回顾了用于场景生成和分析的主要评估指标、数据集、仿真平台和基准挑战。我们有意将范围限制在与FM应用最相关的最新且有影响力的资源,并省略了先前工作中已涵盖的条目。++(总结第八章的内容)++

A. 指标

表 10 总结了引用论文中用于情境生成和使用 FMs 进行分析的主要评估指标。这些指标分为三类:(1) 框架性能指标,用于评估框架的整体性能;(2) 内容质量指标,用于评估生成或分析内容的质量和语义准确性;(3) 应用特定指标,用于处理与特定领域相关的方面。

任务:Gen=生成,Ana=分析。勾选表示适用的任务。输出:T=文本(问答),S=脚本(可执行代码),Tr=轨迹(单智能体或多智能体路径),I=图像(二维场景),V=视频(时间序列),O=其他(点云、三维占据、深度图)。

++(1)框架性能指标:++它们用于评估基于 FM 的框架在场景生成和分析中的计算效率和运行可靠性。

**(I)效率:**衡量场景生成或分析所需的计算成本和时间。响应时间指的是从输入提交到输出生成的时间,而令牌使用量则是FM应用程序接口(API)密钥调用过程中消耗的输入和输出令牌总数。这些指标常与基础方法(如手动脚本编写)进行比较,以评估基于FM框架的实际效益[92]、[95]。

**(II)有效性:**指框架在产生有效输出方面的操作稳健性和可靠性。通常通过编译错误率、生成代码或场景无法正确编译或解析的比例,以及执行成功率(在目标环境中能够成功实例化和执行的场景百分比)来评估 [92],[95]。

++(2)内容质量指标:++这些指标评估生成或分析内容的质量和语义准确性,包括轨迹、语义理解和语言生成输出。

**(I)轨迹精度:**对于以轨迹为中心的生成和预测任务至关重要。常见指标包括平均位移误差(mADE),即预测轨迹与真实轨迹在所有时间步中的平均欧氏距离;平均最终位移误差(mFDE),即最终预测时间步从预测轨迹到真实轨迹的距离;以及最大均值差(MMD),衡量生成轨迹集与实轨迹集之间的分布相似性。此外,预测驾驶员模型评分根据已学习的驾驶员行为模型评估预测,衡量从现实世界数据中学习到的人类驾驶模式下预测路径的可能性;竞技场驾驶评分通过评估复杂多智能体场景下的整体驾驶能力,包括碰撞避免、目标达成、交通规则遵守及与其他智能体的交互质量[78]、[83], [85]--[87], [286], [291].

**(II)语义正确性:**评估生成的情景或分析输出对碰撞报告或文本提示等输入的预期语义的反映程度。常见指标包括用于评估情景分类的准确性或F1分数、语义分类和问题回答正确性。此外,完整性和连贯性通过人工评估进行评估,注释者根据回答涵盖所有相关方面的情况以及输出逻辑一致性和结构性来分配评分 [79], [90], [94], [95], [100], [114], [124], [125], [127], [141], [143], [145]--[147], [169]--[171], [174], [178], [180], [181], [187], [190]

**(III)语言质量:**评估生成文本与人工书写参考句子的相似性,通过词语重叠、结构和意义来衡量流畅性、相关性和连贯性。传统指标包括双语评价替身(BLEU),其通过词和短语(n-gram)重叠来衡量,重点关注精确性;基于共识的图像描述评估(CIDEr),使用加权n-gram,更重视信息性词语;显式顺序翻译评估指标(METEOR),考虑精确匹配、词干匹配和同义词,同时评估精确率和召回率;面向摘要评估的召回导向替身-最长公共子序列(ROUGE-L),通过最长公共子序列来衡量内容相似性,重点关注召回率。然而,这些基于词汇的指标可能无法捕捉语义细微差别。为了解决这一问题,GPT评分利用ChatGPT的推理能力评估预测质量和语义意义,并给予评分。此外,人类评估分数通过让人工标注者根据观察到的细节对生成内容进行评分,从而直接评估输出质量 [114], [116], [117], [128], [148], [151], [176], [187], [190], [191]。

++(3) 应用特定指标:++它们针对 AD 场景的领域特定方面,重点关注安全关键属性和用户指定的约束。

**(I)安全关键性:**评估生成场景的风险水平和安全关键属性。关键指标包括碰撞率、场景中碰撞发生的频率;碰撞时间(TTC),即潜在碰撞发生前剩余时间;风险评分,对情景危险等级的全面评估;评估场景安全关键性的准确性;以及违规发现,即识别和检测生成场景中安全关键事件或规则违规的能力 [73], [74], [118], [155], [156], [159], [160], [183], [206]--[212], [214], [216], [220]。

**(II)可控性:**衡量框架遵循用户指定约束和控制信号的能力。关键指标包括CLIP对齐评分,该评分通过CLIP共享嵌入空间中的余弦相似度衡量视觉内容与文本提示之间的对齐;准确性,即根据指定的控制信号评估生成内容的正确性,例如通过对象检测或分割模型(如边界框、掩码)验证元素的存在、位置和类别,或根据预定义参数评估情景脚本;以及交通流合规性,评估对限速、预设航点、车道分配、车辆数量和场景类型规格等约束条件的遵守情况 [122]、[206]、[208]、[209]、[211]、[213]、[221]、[225]--[233]、[235]。

**(III)现实性:**衡量生成场景在多模态上的真实性。对于交通流,指标包括 Wasserstein 距离(WD)和 Kullback--Leibler 散度(KLD),用于统计运动动态(如加速度、变加速度)的真实性;弗雷歇距离(Frechet Distance)和对称段路径距离(SSPD),用于模拟轨迹与真实轨迹之间的空间差异;越出道路率(Off-Road Rate)用于评估不现实轨迹生成;车道航向距离(Lane Heading Distance)用于评估车辆方向与车道方向的对齐。对于图像生成,弗雷歇参与网络距离(FID)衡量分布差异,均方根误差(RMSE)评估像素级精度。对于视频生成,弗雷歇视频距离(FVD)、核视频距离(KVD)和视频全景质量(Video Panoptic Quality)评估时间一致性和统计相似性。对于 3D 场景,平均交并比(mIoU)评估占用预测,Chamer 距离(chamfer distance)衡量点云相似性。此外,场景一致性和人工评估用于评估整体场景质量和真实性[103], [105], [121], [122], [124], [181], [206]--[208], [211], [212], [214], [216], [220], [221], [225]--[235], [238], [240], [275], [292]--[295]。

**(IV)多样性:**通过分析车道数量、边缘数量、路线长度和车辆密度等特征的统计分布,来捕捉生成场景的多样性[68],[72],[152]。

**(V)定位准确性:**评估模型输出与物理环境在空间和语境上的准确性。关键指标包括2D和3D物体定位准确性的交并比(IoU)和平均交并比(mIoU)、用于在3D空间检测和定位物体的3D平均精度(mAP),以及用于测量预测位置与真实物体位置之间空间偏差的L1/L2定位误差。这些指标用于评估模型将文本描述与视觉元素对应起来的准确性,以及理解驾驶场景中空间关系的能力[132], [134], [137], [149], [175], [180], [275]。

**(VI)分类:**评估对场景、行为或驾驶条件进行分类的准确性。常用指标包括场景类型识别的准确率、用于理解误分类模式的混淆矩阵,以及特定安全关键事件检测的精确率/召回率[106],[107],[195]。

B. 数据集

在基于场景的测试中,使用大模型(FMs)的典型方法是重现现实世界场景于模拟环境中,并重建相应事件。大语言模型(LLMs)通常使用给定数据集中代理的轨迹数据,而视觉语言模型(VLMs)或多模态大语言模型(MLLMs)可以利用额外的输入模态,如LiDAR点云、RGB图像或视频流,以及丰富的标注。具体而言,生成模型(DMs)使用RGB图像、轨迹以及潜在的LiDAR数据作为输入,通过迭代优化生成逼真的未来场景或运动模式。相比之下,世界模型(WMs)旨在学习驾驶环境的底层动力学,通过编码多模态传感器数据(如图像、LiDAR、轨迹)来预测未来状态或场景演变。同时,对于场景分析,一个常见的方法是利用VLMs或MLLMs来分析驾驶场景,使用图像或视频数据,可带或不带LiDAR或高清地图(HD maps),应用于感知、预测和推理等不同任务。++(数据集的概述,各种模型需要的数据集有所不同)++

为了评估数据集的相关性和适用性,我们采用了Ding等人[54]提出的分类方案。该方案能够对数据集进行结构化比较,考虑其传感器覆盖范围、标注深度、场景多样性以及用于可控生成任务的潜力。在需要大量、多样且带标注数据的FMs背景下,数据集属性的选择对于提升模型的泛化能力至关重要。我们在表11中将这一分类方法应用于一组有影响力且最新的数据集,并使用[54]对下列数据集属性进行分类。++(对数据集进行结构化比较)++

有影响力:我们通过数据集被使用的次数来定义其影响力,而不仅仅是被引用的次数------统计对象是包含在我们调查中的论文。根据这一标准,最具影响力的四篇论文对应的数据集如下:nuScenes(52次使用)、Waymo Open(19次)、DRAMA(4次)和HighD(3次)。

视图说明:FPV=第一人称视角,BEV=俯视视角;图像说明:RGB=红绿蓝,S=立体;交通状况包括:D/N=白天/夜晚;U/S/R/H=城市/郊区/乡村/高速公路;Jam=有交通拥堵情况。

(1) 传感器数据:像 Waymo[75] 和 nuScenes[123] 这样高质量的数据集提供了多种传感器模态,包括 RGB 摄像头、LiDAR 和 RADAR。这种多模态输入对于预训练以及在视觉和空间推理任务中对大型语言模型(LLMs)、视觉-语言模型(VLMs)、扩散模型(DMs)和世界模型(WMs)进行对齐尤其重要。

(2) 注释:这些数据集还包括详细的二维和三维物体注释、车道信息以及智能体轨迹。这种语义和几何细节的层次支持感知、预测、基于地图的场景生成及安全分析等任务。

(3)交通状况:交通状况描述了数据收集的时间和地点,包括一天中的时间(白天/夜晚)、环境类型(城市、郊区、农村、高速公路)以及是否存在交通拥堵。这些因素会影响能见度、交通流量、道路布局和驾驶行为,为评估自动驾驶性能提供多样化的场景。++(三种数据集的类型)++

像 Waymo Open[75] 和 nuScenes[123] 这样的数据集在文献中尤其广泛。这在很大程度上是由于它们具有真实世界的逼真性、丰富的多传感器覆盖和全面的注释,使它们成为训练和评估 FMs 的理想选择。此外,值得注意的是,与情境分析相关的新兴(视觉)问答数据集以及语言 FM 的应用在第 IV-C 节和第 V-C 节中有讨论。++(使用最广泛的两个数据集单独说)++

C. 模拟器

仿真平台在自动驾驶系统的开发和评估流程中至关重要。它们能够实现安全且可重复的测试、大规模场景生成以及结构化基准测试。对于基于大模型(FM)的场景生成,仿真器在生成训练数据、实现自监督预训练以及促进仿真到真实的验证方面特别有价值。基于大模型的场景生成可以通过大语言模型(LLM)、视觉语言模型(VLM)或多模态大语言模型(MLLM)通过API功能或DSL进行,从而实现自动脚本生成和场景执行。表12总结了对场景生成和分析具有影响力的近期仿真平台。为了对现有仿真器进行分类和评估,我们扩展了Ding等人[54]提出的分类方案,重点关注与大模型开发和应用特别相关的功能。++(仿真平台的重要性概述)++

有影响力:我们根据表11中的相同标准,识别模拟器的影响力,基于论文在我们的调查中实际使用模拟器的次数------而不仅仅是引用次数。最有影响力的模拟器是CARLA(使用8次)、MetaDrive(使用4次)、LGSVL(使用3次)和SUMO(使用3次)。

**(1) 后端:**模拟后端定义了用于生成传感器数据和模拟交互的物理和渲染引擎。像Unreal Engine 4(UE4)或Unity这样的平台可以实现高保真渲染和真实的车辆动力学,这对训练以感知为驱动的基础模型非常有价值。轻量级或符号化后端,如SUMO或Nocturne,在渲染逼真性不那么关键的大规模规划和决策数据集中也非常有用。

**(2) 逼真感知:**具有逼真感知能力的模拟器可以提供基于物理的传感器输出,包括摄像头、LiDAR或雷达模拟。这类平台对于训练视觉-语言基础模型(FMs)、传感器融合骨干或多模态工作记忆(WMs)至关重要。

**(3) 自定义场景:**定义和自定义交通场景的能力是评估和数据生成工作流的核心需求。尤其对于基础模型而言,自动化和多样化的场景创建支持模型在罕见、安全关键或系统性变化的交互上的预训练。自定义通常包括交通参与者的布局和行为、路线定义或环境条件(如天气和光照)的修改。像CARLA[51]这样的模拟器提供丰富的API以进行手动自定义,使用户能够编写复杂的多智能体交互脚本,并调整车辆行为、密度甚至场景外观等参数。最近,像BeamNG.tech[205]这样的平台更进一步,支持大规模的自动化场景生成。这使得能够程序化地创建和批量测试各种情况,非常适合在闭环环境下训练和验证基础模型。

**(4) 地图来源:**我们区分基于真实世界地图(如OpenStreetMap)的场景和人工设计的场景。真实世界地图确保地理真实性和覆盖范围,而人工设计的地图则允许控制环境。

**(5) API 支持:**API 支持决定了模拟器在训练管道中整合的灵活性。Python 接口对于数据生成和模型交互尤其有用。机器人操作系统(ROS2)兼容性允许在机器人系统中测试学习到的策略,而 C API 则为实时验证和闭环部署提供性能保障。

API(Application Programming Interface,应用程序编程接口)是一个非常重要的技术概念,用一句话概括就是:一套让不同软件之间能够相互通信和协作的规则与工具。

**(6) 特定领域语言(DSL)支持:**一些模拟器提供 DSL,使通过高级函数或语法进行结构化、可读的场景规范成为可能。这些接口对于在自动化场景生成管道中整合 LLM/VLM/MLLM 尤为有用。

根据这些标准,表 12 中有两个模拟器在 FM 研究中表现特别突出:CARLA [51] 和 SUMO [52]。它们的互补能力使其非常适合场景生成和评估的不同方面。SUMO 是一个微观交通模拟器,旨在进行大规模交通建模和以人口层面为主的高交互场景仿真。它支持通过 OpenStreetMap 与实际地图集成,从而实现地理精确的交通流仿真。这些特性使其成为 LLM 在使用自然语言提示或结构化模板生成或编辑交通配置时的实用后端。相反,CARLA 是一个宏观模拟器,具有高保真物理模拟、传感器模拟和真实感渲染。它被广泛用于闭环环境中自车代理策略的测试。其与 Scenic [97] 等平台的集成,使通过可解释的形式化语言进行程序化场景定义成为可能,而其 Python API 则提供对代理行为、环境设置和传感器配置的精细控制。这些特性使 CARLA 特别适合用于 LLM、VLM 和 MLLM 的视觉-语言理解、闭环控制和多模态推理。++(CARLA [51] 和 SUMO [52]两种最常用到的模拟器)++

D. 挑战与基准

除了静态数据集和仿真环境之外,开放挑战和基准测试已成为评估大模型性能的有用工具。虽然数据集提供了训练和离线测试的原始材料,但挑战能够在受控和竞争性的环境中实现模型的对比分析。据我们所知,这是第一个系统地分类和比较与场景生成和分析相关的挑战与基准的调查。尽管许多挑战起源于其他应用领域,如医学影像、机器人或通用语言理解,但其基础任务结构通常与自动驾驶中的任务相符。例如,解读传感器输入、预测主体行为、做出多步骤决策或生成新的表示(如场景、轨迹或指令)都是场景理解的核心操作。表13列出了2022年至2025年发布的一些挑战和基准,而我们的工作则提供了精选概览。这些挑战不仅体现了自动驾驶的直接贡献,例如Waymo开放数据集挑战 [321]、Argoverse 2场景挖掘竞赛 [322] 和 Accessibility Vision and Autonomy (AVA) 挑战 [324],还包括来自其他领域的结构上相似的基准。例如,虽然Argoverse 2挑战已经涉及场景分析,但尚未涉及场景生成。相比之下,诸如视觉问答(VQA)、自我视角视频理解或合成图像生成等任务通常要求模型解读复杂场景并生成新的连贯输出,这种能力对于场景生成同样至关重要。像SyntaGen [332]和文本到图像排行榜 [340]这样的挑战很好地展示了这种平行性:模型被要求生成展示结构真实性和多样性的合成示例。每个挑战沿着五个核心能力进行分类:++(开放挑战和基准测试已成为评估大模型性能的有效方法)++

(1) 感知与解读:该类别指模型处理传感器输入并提取有意义语义表示的能力。基准测试如 MMBench [337] 和 MMMU [338] 需要跨图表、图片和结构化视觉数据进行细粒度视觉理解。MedFM [343] 挑战侧重于从医学影像(如 X 光片和组织学切片)中提取临床相关模式。Ego4D [341] 在自我视角视频背景下评估感知能力,模型必须解读长时间的非结构化第一人称视频流。

(2) 预测与规划:该类别的挑战要求模型根据部分观察预测未来事件或规划一系列动作。Waymo 开放数据集挑战赛 [321] 是一个突出例子,评估模型在真实交通场景中从多智能体传感器流进行运动预测的能力。在 Habitat 挑战 [333] 中,具身智能体必须在逼真的室内环境中导航,以实现语义或视觉目标。

(3) 推理与决策:该能力包括常识推理、因果推理和多步规划。BIG-bench [334] 和 BIG-bench Hard (BBH) [335] 基准测试针对逻辑、数学及抽象推理中的难题,其中许多问题即使是大型模型也无法完全解决。SMART-101 [330] 评估对话中的推理能力,特别是模型是否能生成有益、诚实且无害的回应。

(4) 语言理解与生成:涵盖任务如指令执行、问答、摘要和对话生成。LLM 效率挑战 [326] 评估基础模型在严格计算预算下的微调能力。HELM [336] 提供跨十多个应用领域的多维评估,不仅衡量任务性能,还评估公平性、偏差及校准情况。Open LLM 排行榜 [339] 提供了一个基于标准化评估的开源语言模型公开排名,评估任务包括问答或摘要等。

(5) 创造性生成:最后,这一类别评估模型生成复杂产物的能力,例如图像、标题或合成数据样本。文本到图像排行榜 [340] 使用人类偏好判断来评估基于扩散的生成模型的图像输出。SyntaGen [332] 测试扩散模型是否能够生成保留足够结构和多样性的合成图像,以训练稳健的感知模型。++(针对五个核心能力进行分类)++

总体而言,这些基准提供了一个结构化的框架,用于衡量和比较大语言模型(FMs)的能力,而不仅限于狭窄的任务特定指标。它们反映了对既准确又具备通用性、适应性强且在不同领域都稳健的模型日益增长的需求。例如,Ego4D [341] 基准要求模型理解涉及多样日常场景(如家庭、工作场所和户外活动)的自我中心视频数据。相比之下,MedFM [343] 评估模型分析复杂医学图像的能力,需要高精度和特定领域的知识。尽管它们的应用领域不同,但这两类任务都依赖类似的基础能力,体现了大语言模型所需的多功能性。++(提供了一个结构化的框架)++

九、开放的研究问题与挑战

在本文中,我们阐述了在使用生成模型(FM)进行场景生成和分析的新兴领域中,现有技术是非常广泛的。尽管如此,仍然存在一些未解决的研究++问题和挑战++。在此,我们基于与该领域的顶尖研究人员和专家的进一步讨论,提出了一份未解决挑战的列表。这些挑战为在自动驾驶(AD)中使用生成模型进行场景生成和分析开辟了新的研究问题。

**挑战1 -- 平衡合理性与边缘情况生成:**有效的场景生成需要在现实性与捕捉罕见边缘情况的能力之间取得平衡。现实场景要求大模型(FMs)能够抽象地理解现实世界的动态[344]。另一方面,对于安全保障至关重要的边缘情况[345]通常接近感知合理性的边界,这使得大模型在生成时难以避免产生不现实的结果。当生成场景的合理性受到影响时,所得到的场景就无法支持安全保障的论证[53]。因此,关键挑战在于确保生成场景的现实性,同时使大模型能够泛化并捕捉关键的边缘情况。

**挑战2------大规模多模态数据可用性:**许多FM训练基于现有数据集,难以全面捕捉真实驾驶场景的多样性。此外,与单模态FM相比,多模态数据如激光雷达、摄像头、雷达和文本的集成仍然有限。这是因为缺乏公开可访问的互联网级大规模开源LiDAR和RADAR数据,以及领域特定的多模态数据集规模不足[41]。此外,包含罕见、多样化和安全关键事件的开放数据集仍然稀缺。因此,一个主要挑战是缺乏多样化且无偏见的多模态数据,以实现高真实性和保真度的场景生成。

**挑战3------情景生成的标准化评估指标和基准:**目前尚无自动评估和生成驾驶情景的标准。广泛接受的评估现实性、合理性、动态可行性、可控性和安全关键性的指标仍然缺失,阻碍了不同方法之间公平且有意义的比较。为填补这一空白,需要开源评估框架和社区挑战或排行榜,要求参与者生成并评估自动驾驶场景。此类举措将促进一致的基准测试,促进多维评估指标的发展,并促进可重复的研究实践。这将加速情景生成方法融入安全评估流程。

**挑战4------安全性、稳健性和验证:**大多数现有方法缺乏安全、正确性或情景覆盖的正式保障。FM的随机特性增加了幻觉输出的风险,限制了其在AD安全保障方面的可靠性。一个关键挑战是确保生成的场景在逻辑基础上得到验证,并通过形式验证、约束满足或基于逻辑的安全规则进行验证,而不仅仅是与预期上下文相关。

**挑战5------计算成本与可扩展性:**当前基于FM的生成方法需要大量计算资源,训练需要庞大的数据集、长运行时间和高性能硬件。即使是推理和模型微调,没有先进的基础设施也成本高昂。这在可扩展性、可访问性和成本效益方面带来了未解决的挑战,尤其对较小的组织或资源有限的应用而言。

**挑战6--工业可转移性与验证:**虽然学术界提供了许多虚拟测试和评估的方法,但工业界最终必须将其应用于现实世界的自动驾驶(AD)场景。弥合这一差距需要方法的验证、标准化 [346],以及与现有工作流程的无缝整合。因此,一个关键 的研究问题在于开发不仅在理论上可靠,而且在实践中高效、实用、易于各类利益相关者使用的方法,并通过可靠的工业验证证明其明显的优势和适应性。

十、未来方向

使用大模型在场景生成和分析中应对上述挑战,为++未来改进和新的研究议程提供了多个方向++。

**研究方向 1-- 提高现实性:**提高生成场景的真实感和可信度需要将领域特定知识整合到大模型中,从而增强它们对现实世界动态和交互的理解。将基于物理的模型与数据驱动的大模型结合的混合方法,有望生成物理上连贯的场景。此外,探索使用工作记忆(WM)进行"梦境"[34],[347] 可以弥补传感器模拟中的不足:数据驱动的梦境方式能够高保真地捕捉精细的传感器特性。

**研究方向2------创造罕见事件:**捕捉罕见高风险事件需要专门的方法系统识别和生成此类场景。我们建议创建针对偶发但关键情况的有针对性数据集,以提高此类模型的准确性。此外,还会融入因果推理或反事实推理等推理技巧[348],这可能帮助FM推断出合理但不常见的情景。

**研究方向3------创建多模态数据集:**多模态数据集成仍是重大挑战,需要专门为场景生成设计的大规模数据集。这些设备应结合车辆传感器数据,如激光雷达(LiDAR)、雷达和摄像头,与地图数据、交通规则、控制作、人工反馈和文本注释相结合。我们还建议开发专门针对多模聚变设计的新模型架构和训练方法,以解决当前在可扩展性和集成上的限制。

**研究方向4------制定用于比较的指标和关键绩效指标:**我们强烈建议开发标准化评估方法,以客观比较情景和情景生成方法。这需要新的基准和衡量现实性、可控性、多样性和安全性关键性的指标,同时社区广泛采纳。在主要会议的竞赛中推广这些新基准将推动进步、标准化和社区驱动的创新。

**研究方向5------减少计算需求:**计算效率和可扩展性是主要的实际限制。解决这些问题需要进一步研究模型提纯、修剪和量化等专门针对场景生成和分析任务的技术,以最大限度地减少计算需求,同时不牺牲性能。

**研究方向6------FM作为安全数据飞轮:**一个关键研究方向是将FM整合进AV安全验证工作流程。这包括将FM作为安全数据飞轮,生成的场景持续支持测试、杀毒模型再训练、安全评估和性能监控。未来工作应确保场景代表性,平衡真实与合成数据,并开发强有力的指标,量化杀毒生命周期中生成的边缘案例的安全影响。

**研究方向7--法规合规:**伦理考量和法规合规必须成为未来发展的核心。需要透明的方法来识别、缓解和验证在自动驾驶场景生成与分析中的偏差。同样重要的是建立强有力的数据隐私管理方法,以确保符合法律和伦理标准,同时保护敏感的训练数据。推进这些方面的工作还将支持生成场景在安全验证和认证中的使用,从而有助于形成结构化的安全论证。

十一、结论

本调查考察了自动驾驶应用中FM的尖端技术,强调它们在场景生成和场景分析方面的重大贡献。包括大型语言模型(LLM)、VLMs、MLLMs、数据管理(DM)和场景管理工具(WM)等,已成为提升场景测试在AD中真实性、多样性和可扩展性的有前景工具。++(做了什么)++

FMs 的多功能性在于它们能够通过自监督训练从大规模、异构的数据集中学习。它们在各种任务之间泛化知识的能力推动了基于场景的测试范式,克服了传统基于规则和数据驱动方法的许多局限性。尤其是,FMs 所展现的场景生成与场景分析的双重能力,使它们成为 AD 系统中稳健高效验证框架的关键推动力。++(FMs怎么产生作用)++

尽管取得了这些进展,但仍存在显著挑战。在安全关键场景中实现细粒度的可控性,以及确保生成场景的稳健真实感,仍然是持续的研究难题。计算效率依然是一个重大挑战,因为许多基础模型需要高内存带宽、高推理时间和昂贵的GPU资源,从而限制了它们在大规模场景生成和实时测试中的实用性。此外,尽管所调研的模型展示了可喜的成果,但仍需进一步研究以增强其输出的可解释性、改善与现实交通条件的对齐,并系统地应对分布外场景。未来的工作还应探讨基础模型设计和规模的改进是否以及如何能带来场景生成和分析的更好泛化能力。++(存在的显著挑战、未来工作)++

最终,随着自动驾驶车辆逐渐进入更广泛的作业领域并达到更高级别的自动化,先进场景生成与分析方法的作用将至关重要。FMs 为这一发展提供了强大的框架,有望彻底改变自动驾驶技术的安全性和效率。预计这一研究的未来发展将带来更多变革性进展,促进更安全、更可靠且更广泛可及的自动驾驶出行。++(先进场景生成与分析方法的作用将至关重要)++

相关推荐
Piar1231sdafa3 小时前
蓝莓目标检测——改进YOLO11-C2TSSA-DYT-Mona模型实现
人工智能·目标检测·计算机视觉
愚公搬代码3 小时前
【愚公系列】《AI短视频创作一本通》002-AI引爆短视频创作革命(短视频创作者必备的能力)
人工智能
数据猿视觉3 小时前
新品上市|奢音S5耳夹耳机:3.5g无感佩戴,178.8元全场景适配
人工智能
蚁巡信息巡查系统3 小时前
网站信息发布再巡查机制怎么建立?
大数据·人工智能·数据挖掘·内容运营
AI浩3 小时前
C-RADIOv4(技术报告)
人工智能·目标检测
Purple Coder3 小时前
AI赋予超导材料预测论文初稿
人工智能
Data_Journal3 小时前
Scrapy vs. Crawlee —— 哪个更好?!
运维·人工智能·爬虫·媒体·社媒营销
云边云科技_云网融合3 小时前
AIoT智能物联网平台:架构解析与边缘应用新图景
大数据·网络·人工智能·安全
码农水水3 小时前
得物Java面试被问:消息队列的死信队列和重试机制
java·开发语言·jvm·数据结构·机器学习·面试·职场和发展
康康的AI博客3 小时前
什么是API中转服务商?如何低成本高稳定调用海量AI大模型?
人工智能·ai