我自己的原文哦~ https://blog.51cto.com/whaosoft143/13993588
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#Progressive Robustness-Aware World Models in Autonomous Driving
近200文献深度综述!北交大等全景解读驾驶世界模型:生成、规划与增强
自动驾驶(Autonomous Driving, AD)技术正试图让车辆像人类一样思考和驾驶,而**驾驶世界模型(Driving World Models, DWM)**作为通往通用人工智能(AGI)的核心框架,正成为连接感知、决策与控制的关键桥梁。与传统的端到端模型不同,DWM 不仅关注从传感器到控制的映射,更致力于构建对物理世界的内部表征,预测环境的未来演变。
- 论文标题:Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook
- 作者列表:Feiyang Jia, Caiyan Jia, Ziying Song, Zhicheng Bao, Lin Liu, Shaoqing Xu, Yan Gong, Lei Yang, Xinyu Zhang, Bin Sun, Xiaoshuai Hao, Long Chen, Yadan Luo
- 机构列表:北京交通大学;澳门大学;哈尔滨工业大学;南洋理工大学;清华大学;北京航空航天大学;小米汽车;澳大利亚昆士兰大学
- 论文地址: https://doi.org/10.36227/techrxiv.176523308.84756413/v1
- 项目主页: https://github.com/MoyangSensei/AwesomeRobustDWM
近期,来自北京交通大学、小米汽车、澳门大学、哈尔滨工业大学、清华大学 等机构的研究团队,在 TechRxiv 上发布了一篇关于自动驾驶世界模型的重磅综述。该文不仅全面梳理了 DWM 的技术流派,更首创性地提出了**"渐进式鲁棒性"(Progressive Robustness)**分析范式,将 DWM 的发展划分为 Robustness 1.0(自评测)、Robustness 2.0(系统贡献)和 Robustness 3.0(开放世界)三个阶段,为该领域的未来演进提供了清晰的路线图。
如图 1 所示,DWM 的鲁棒性演进路径揭示了从关注模型自身指标,到强调对 AD 系统的实际贡献,再到解决开放世界挑战的跨越。
什么是驾驶世界模型(DWM)?
世界模型(World Model)的概念最早可追溯到心理学中的"心智模型",即人类在头脑中构建外部世界的简化抽象。在自动驾驶中,DWM 旨在学习数据空间中的动态模式,具备"理解过去"和"预测未来"的双重能力。
图 2 展示了本综述的整体架构。研究团队将 DWM 的核心任务归纳为三大类:生成(Generation)、规划(Planning)和增强(Enhancement)。
DWM 摄入历史观测数据,通过生成未来场景、辅助运动规划或增强下游任务,从根本上提升自动驾驶系统的安全性和鲁棒性。
图 4 展示了 DWM 领域代表性工作的时间线与贡献分布,清晰地反映了从 Robustness 1.0 到 3.0 的技术演进趋势。
Robustness 1.0:如何通过自评测判断 DWM?
在 Robustness 1.0 阶段,研究焦点在于模型本身的任务定义、架构设计及量化评估。DWM 需要在图像、点云、占据栅格(Occupancy)等多种模态下证明其"预测未来"的能力。
生成任务的量化评估
生成高质量的未来场景是 DWM 的基础能力。针对不同的数据模态,DWM 展现了各自的优势:
- 图像/视频生成:这是目前最普遍的任务。如 Vista 在早期就展现了高分辨率(576×1024)和低 FID(6.9)的生成优势。新近的方法如 MiLA、EOT-WM 和 UniMLVG 则通过引入额外条件(如深度、多视角)进一步提升了空间一致性。
- 点云预测:利用点云的深度信息优势,DWM 如 BEVWorld 和 HERMES 在无额外监督的情况下,实现了 SOTA 的点云预测效果。
- 4D Occupancy 预测 :DOME 在 4D Occupancy 预测上取得了显著突破,大幅超越了基准方法 OccWorld。相比纯视觉输入,基于 Occupancy 的方法(如 RenderWorld)通常能提供更鲁棒的环境理解。
表 VI 展示了 DWM 在驾驶场景图像/视频生成上的性能对比。
表 VII 展示了点云重建/预测的性能。
表 VIII 展示了 4D Occupancy 重建/预测的性能。
规划任务的量化评估
规划能力是检验 DWM 是否理解驾驶逻辑的试金石,分为开环和闭环两类:
- 开环规划(Open-loop):在给定历史数据下预测未来轨迹。DriveWorld 通过 4D 预训练显著提升了规划性能;Epona 和 WoTE 在 NAVSIM 评测中展现了极高的 PDMS 分数,证明了 DWM 在开环设置下的优越性。
- 闭环规划(Closed-loop):将 DWM 集成到 Agent 中进行模拟驾驶。Raw2Drive 在 Bench2Drive 榜单上取得了 71.36 的高驾驶分(DS),仅次于使用特权信息的专家方法。这表明 DWM 在长尾场景处理上具有巨大潜力。
表 IX 展示了 nuScenes 验证集上的运动规划性能。
表 XI 展示了 CARLA 平台上的规划性能。
表 XII 展示了 Bench2Drive 基准上的性能。
Robustness 2.0:DWM 是否真正造福了 AD 系统?
Robustness 2.0 关注 DWM 如何反哺自动驾驶系统,主要体现在可控生成、零样本泛化和跨任务增强三个方面。
可控生成(Controllable Generation)
DWM 的核心价值之一是生成多样化、高价值的虚拟数据,特别是针对 Corner Case 的数据补全。
- 静态控制:修改天气、光照或背景。如 UniMLVG 和 DrivingDiffusion 可通过文本调整天气。
- 动态控制:控制车辆行为、轨迹。InfinityDrive 和 GenAD 利用文本指令引导车辆减速或遵守交通规则;Drive-WM 甚至能生成"冲入绿化带"等反事实安全测试场景。
表 XIII 列举了支持可控生成的 DWM 方法。
零样本泛化(Zero-Shot Generalization)
具备 Zero-Shot 能力的 DWM 可以在未见过的场景中进行推理,这是迈向"数据引擎"的关键。Vista 通过协同训练策略,在不依赖动作条件的数据集上实现了动作可控性;Dreamland 则在 MetaUrban 模拟器上展示了针对新型交通工具的零样本生成能力。
表 XIV 总结了具备 Zero-Shot 能力的 DWM。
跨任务增强与人类偏好对齐
DWM 通过预训练范式(如 UniWorld、ViDAR)为下游检测、跟踪、分割任务提供强大的初始化参数和先验知识。同时,Aligning with human preference(与人类偏好对齐)成为提升安全性的关键,ReSim 和 GAIA-2 等工作开始尝试通过用户研究(User Study)来验证生成内容与人类直觉的一致性。
Robustness 3.0:DWM 的下一站是哪里?
展望未来,DWM 需要迈向 Robustness 3.0,应对开放世界的终极挑战。
迈向可信驾驶模拟器
目前的 DWM 虽能生成逼真图像,但离**"可信驾驶模拟器"(Trusted Driving Simulator)**仍有距离。
- 挑战:缺乏闭环场景下的真实影响评估,且难以对特定语义元素进行精细化干预。
- 方向:开发模块化的 DWM 架构,支持显式语义分解和可控扰动注入,建立开环与闭环相结合的分级评测协议。
统一任务与分层架构
现有的 DWM 任务定义割裂。未来的方向是构建分层世界模型(Hierarchical WM):
- 物理层:表征环境几何。
- 意图层:分析物理规律和决策动机。
- 行为层:建模交通参与者的交互。 这种分层设计将有助于统一感知、预测和规划任务,并提升模型的可解释性。
效率与可解释性
- 效率:如表 XV 所示,DWM 的训练极其消耗资源(如 Vista 使用了 128 张 A100,训练时长达 24576 GPU Hours)。未来的重点是模型轻量化、知识蒸馏及端侧部署优化。
- 可解释性:打破"黑盒",利用 LLM 和 VLA(视觉-语言-动作)架构,让 DWM 能够解释"为什么生成这条轨迹"或"为什么做这个决策",建立人类信任。
表 XV 展示了 DWM 的 GPU 资源消耗情况,高昂的算力成本是落地的一大阻碍。
写在最后
从 Robustness 1.0 的自证其名,到 Robustness 2.0 的赋能系统,再到 Robustness 3.0 的开放世界征途,自动驾驶世界模型正处于爆发的前夜。感兴趣的朋友继续跟进github上的项目,获取后续进展。
....
#基于Qwen3-VL的自动驾驶场景实测......
近年来,多模态大模型在自动驾驶领域的潜力逐渐显现。它们能否真正"看懂"路况、理解交通行为、甚至预测风险,成为行业内外关注的焦点。
笔者对近期阿里通义最新的Qwen3-VL 模型进行了一系列自动驾驶场景的实测,涵盖场景理解、空间推理、行为判断、风险预测等多个维度。
个人认为,Qwen3-VL不仅在基础感知任务上表现稳健,更在开放式推理与动态场景理解中展现出令人惊喜的"老司机"潜质。
更重要的是,它并未经过专门的自动驾驶指令微调(SFT),却能对复杂交通场景做出合理、连贯、甚至带有"安全意识"的判断------这让我们看到了通用视觉语言模型在垂直领域中落地的更多可能。
本次测试选取了CoVLA基准中的部分图像,以及基准中的一些中翻后的问题。此外笔者也自拟了一些开放式问题。
场景理解和空间推理
示例1
👨🎓:简单描述一下这张图片。
👨🎓:图片中的天气如何?
👨🎓:车辆正行驶在哪种道路?
👨🎓:你可以在图片中看到行人或车辆吗?
示例2
👨🎓:简单描述一下这张图片。
👨🎓:图片中的天气如何?
👨🎓:车辆正行驶在哪种道路?
👨🎓:你可以在图片中看到行人或车辆吗?
示例3
👨🎓:距离自车最近的车辆是什么?
👨🎓:前方那辆车是在移动还是静止的?
👨🎓:旁边车道的车有变道意图吗?
示例4
👨🎓:前方有多少辆车?在什么位置?
👨🎓:自车当前行驶在哪个车道上?前方有几条车道线?
👨🎓:图片中有交通信号灯吗?如果有,是什么颜色?
行为决策和因果推理
示例1
👨🎓:基于当前情况,自车应该加速、减速还是保持速度?
👨🎓:图中最大的潜在危险是什么?
👨🎓:图中的交通标志是什么?遇到这个标志,我们应该怎么做?
示例2
👨🎓:我们现在应该变道吗?为什么?
👨🎓:请按危险程度对图像中的交通参与者进行排序。
👨🎓:为什么旁边的车在闪灯?
👨🎓:为了安全超车,我们应该怎么做?
时序(多帧图像输入)与动态变化理解
示例1
👨🎓:前方车辆的相对速度是在增加还是减少?
👨🎓:请解释交通流从畅通到拥堵的演变过程。最初是什么事件引发了拥堵?
👨🎓:基于前方车辆的连续运动,现在超车是否安全?
示例2
👨🎓:左边的两辆车为什么在闪灯?
👨🎓:在这个动态场景中,哪个交通参与者的行为最危险?为什么?
👨🎓:请模拟一下,如果旁边停靠的车辆突然爆胎,整个场景会如何演变?
(这里太长了就不放思考过程了)
测试亮点回顾
在本次实测中,Qwen3-VL展现了以下几大能力:
- 精准的场景理解:能准确描述道路结构、交通参与者、天气状况、交通标志等;
- 深度的空间推理:能判断车辆相对位置、运动状态、车道关系等;
- 动态行为预测:能分析车辆意图(如变道、闪灯原因)、评估风险等级;
- 安全意识突出:在判断是否超车、是否变道等问题时,多次强调"安全第一",体现出良好的驾驶伦理观;
- 多帧时序理解:能基于连续图像推断速度变化、交通流演变过程,展现出对动态场景的连贯认知。
💡 总结与展望
Qwen3-VL在这次自动驾驶场景测试中表现出了强大的通用视觉语言基础能力。它不仅能"看到"图像中的内容,更能"理解"场景背后的逻辑与风险,甚至在未经过专门训练的情况下,展现出接近人类驾驶员的常识判断与安全意识。
这让我们有理由相信:未来,基于通用大模型的自动驾驶系统,或许不再需要海量场景数据的反复打磨,而是通过"常识推理+多模态理解"的方式,实现更高效、更泛化、更可信的驾驶决策。
当然,模型仍有一些细节需要优化------例如在极端复杂场景下的反应一致性、对罕见交通标志的识别等。但总体而言,Qwen3-VL已经为我们描绘出一个更加智能、更具理解力的自动驾驶未来。
....
#2025年的博世,正在脱胎换骨......
**作为国际Tier1巨头的博世,今年也被国内智驾的飞速发展卷到了。**根据最新的信息,博世汽车电子猛抓预研和量产两条线。量产方面博世投入更多的资源落地一段式端到端,近期也招聘到不少技术专家加入。xx也期待博世后续的量产车型,并会在第一时间跟进。
预研方面,我们看到了很多优秀的算法工作,其中不少xx都首发报道过。在这些已经公开的工作中,有几位值得大家留意:Ren Liu,Yao Yuhan,Sun Hao,Zhang frank,Jiang Anqing,Zhang Youjian等等。整体上来看,博世在自驾以下几个方向投入较大:
- **端到端和VLA:**打榜的DiffVLA、Diffuson改进AnchDrive、FlowDrive、闭环强化学习框架IRL-VLA、纯血Impromptu VLA等等;
- **静态感知:**中稿IROS的SparseMeXT和在线地图工作DiffSemanticFusion;
此外还有一些闭环仿真方面的工作DGS(NeurIPS 2025)和视觉基础模型DINO-R1等。作为一家近140年的老牌企业,博世的工程师文化非常浓厚。柱哥有幸和博世的几位技术专家交流过,更能切身感受到他们务实的精神。相比去年,博世可谓成果颇丰,大方向上博世跟上了前沿的脚步并开始打造自己的特色。本文精选了博世汽车业务近期的优秀工作,为大家一窥其最新的研究图景。
PS. 推荐阅读
DGS(NeurIPS 2025)
- 论文标题:DGS: Dense Depth Regularization for LiDAR-free Urban Scene Reconstruction
- 论文链接:https://arxiv.org/abs/2510.25173
- 提出机构:武汉大学, 上海交通大学, 同济大学, 博世, 南洋理工大学
- 一句话总结:D²GS是一种仅依赖相机输入的动态城市街景重建框架,通过多视角深度估计初始化、渐进式剪枝策略、扩散增强的深度优化模块以及道路几何强先验建模,在无需LiDAR的情况下实现了与LiDAR监督方法相媲美甚至更优的几何重建与深度估计质量。
- 核心贡献:
- 提出了一种完全LiDAR-free的动态城市街景重建流水线,避免了实际应用中LiDAR与相机之间的标定误差、时空不同步和数据稀疏性问题,显著降低了数据采集与系统部署的复杂度与成本。
- 设计了渐进式剪枝策略,从密集的多视角深度点云中高效筛选出具有全局几何一致性的高斯点集,实现了从冗余初始化到紧凑、高质量几何表示的平稳过渡,兼顾了计算效率与重建精度。
- 创新性地引入了基于扩散先验的深度增强模块,通过参考损失、多视角扭曲损失与平滑损失的联合优化,迭代地利用当前高斯几何引导深度扩散过程,生成密集、准确且多视角一致的度量深度图,为高斯训练提供了强有力的几何监督。
- 在场景图表示中集成了专用道路节点,通过对高斯的位置、法向和平坦性施加强几何约束,显式建模地平面先验,显著提升了道路区域的几何重建与深度估计精度。
- 在Waymo Dynamic32数据集上的大量实验表明,D²GS在图像重建(PSNR/SSIM/LPIPS)和深度估计(L1/RMSE/Abs Rel)指标上均超越现有LiDAR监督及LiDAR-free方法,验证了其有效性与先进性。

FlowDrive
- 论文标题:FlowDrive: Energy Flow Field for End-to-End Autonomous Driving
- 论文链接:https://arxiv.org/abs/2509.14303
- 项目主页:https://astrixdrive.github.io/FlowDrive.github.io/
- 提出机构:上海交通大学,博世,清华大学(AIR),上海大学
- 一句话总结:针对现有端到端自动驾驶规划方法在BEV特征中缺乏显式、可解释的安全与语义先验建模,以及运动意图预测与轨迹生成任务耦合导致的梯度冲突问题,FlowDrive 提出了一种融合能量流场表示、流感知锚点细化与任务解耦扩散规划的创新框架,通过物理可解释的流场显式编码风险与车道先验,实现更安全、可解释且符合交规的轨迹生成。
- 核心贡献:
- 提出了基于能量的流场表示法,在BEV空间中显式建模风险势能场 与车道吸引场,将几何约束与规则语义编码为连续的空间能量分布,为规划提供结构化、可解释的安全与引导先验。
- 设计了流感知锚点细化模块,利用流场梯度动态调整初始轨迹锚点,使其与能量最低(即最安全、最符合车道引导)的区域对齐,从而提升轨迹初始化的空间合理性与意图一致性。
- 提出了任务解耦的运动生成规划器,通过特征级门控机制将高层运动意图预测与底层轨迹去噪生成分离,缓解了多任务学习的梯度干扰,并利用条件扩散模型生成多样且目标一致的轨迹分布。
- 在NAVSIM v2基准测试上取得了最先进的性能(EPDMS: 86.3),在安全性、轨迹质量、交通规则遵守等多个指标上超越现有基线,验证了流场引导与任务解耦设计对提升自动驾驶规划安全性、可解释性与鲁棒性的有效性。

AnchDrive
- 论文标题:AnchDrive: Bootstrapping Diffusion Policies with Hybrid Trajectory Anchors for End-to-End Driving
- 论文链接:https://arxiv.org/abs/2509.20253
- 提出机构:上海大学、博世、上海交通大学、西交利物浦大学
- 一句话总结 :AnchDrive提出一种基于混合轨迹锚点初始化的截断扩散策略,通过动态生成与静态先验相结合的锚点集合,显著提升了扩散模型在端到端自动驾驶轨迹生成中的效率与性能,实现了在少量去噪步骤下生成高质量、多样化的安全轨迹。
- 核心贡献:
- 提出混合轨迹锚点机制,首次将动态锚点(由实时感知特征生成)与静态锚点(从大规模人类驾驶数据中预采样)融合,为扩散过程提供高质量初始化,既保留场景适应性,又具备跨场景泛化能力。
- 设计双分支感知架构,结合密集BEV特征与稀疏实例级特征(如障碍物、车道线等),为规划模块提供兼具全局语境与局部结构信息的丰富表征,增强了对复杂交通场景的理解能力。
- 引入锚点引导的截断扩散策略,将扩散过程从纯噪声初始化改为从锚点开始,大幅减少去噪步数(仅需2步),在保持生成质量的同时显著降低推理延迟,满足实时规划需求。
- 在NAVSIM v2闭环仿真基准上取得SOTA性能(EPDMS: 85.5),显著超越基于固定轨迹词表的方法(如VADv2、Hydra-MDP)及其他扩散基线(如DiffusionDrive),验证了方法在多样化、长尾场景下的鲁棒性与泛化能力。

DiffSemanticFusion
- 论文标题:DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
- 论文链接:https://arxiv.org/abs/2508.01778
- 项目主页:https://github.com/SunZhigang7/DiffSemanticFusion
- 提出机构:博世、上海大学、上海交通大学、清华大学AIR等
- 一句话总结:针对在线高精地图在噪声、不完整场景下的不稳定问题,提出DiffSemanticFusion框架,通过地图扩散模块增强地图表达的稳定性与语义丰富性,并结合栅格、图结构与BEV特征的多模态融合,显著提升轨迹预测与规划任务的鲁棒性与性能。
- 核心贡献:
- 在线HD地图扩散模块:首次在轨迹预测与规划任务中引入地图扩散机制,通过可学习的去噪过程提升在线地图在噪声、缺失情况下的可靠性与一致性,增强下游任务的鲁棒性。
- 语义栅格BEV融合架构:设计了一种统一的BEV空间融合方法,有效整合栅格图像、图结构表示与密集BEV特征,充分发挥各模态在几何结构、语义关系与空间连续性方面的互补优势。
- 多任务SOTA性能验证:在nuScenes轨迹预测任务中,将QCNet性能提升5.1%;在NAVSIM端到端自动驾驶规划任务中,尤其在NavHard复杂场景下取得15%的性能提升,展现了方法的强泛化能力与场景适应性。
- 模块兼容性与可扩展性:地图扩散模块与多种矢量式方法(如VectorNet、QCNet)兼容,可灵活集成于现有预测与规划流程,具备良好的工程落地潜力。

IRL-VLA
- 论文标题:IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
- 论文链接:https://arxiv.org/abs/2508.06571
- 项目主页:https://github.com/IRL-VLA/IRL-VLA
- 提出机构:博世、上海大学、上海交通大学、清华大学等
- 一句话总结:针对当前视觉-语言-动作模型在自动驾驶中存在的开环模仿学习性能受限、闭环训练依赖高仿真模拟器且计算效率低两大挑战,IRL-VLA提出一种基于奖励世界模型的闭环强化学习框架,通过三阶段训练(模仿预训练→逆环境学习奖励模型→奖励引导的强化学习微调),在不依赖高保真仿真的情况下实现安全、舒适与效率均衡的端到端驾驶策略优化,在NAVSIM v2基准上取得领先性能。
- 核心贡献:
- 提出IRL-VLA框架,首次实现了不依赖仿真器的、基于传感器输入的闭环VLA强化学习,通过逆强化学习构建轻量级奖励世界模型,替代传统高计算成本的仿真器奖励计算,实现了可扩展、高效的闭环训练。
- 设计了分层推理的VLA模型架构,融合语义推理、三维几何推理与扩散规划器,在模仿学习阶段即表现出优秀的性能基础,为后续强化学习微调奠定坚实基础。
- 构建了基于EPDMS的奖励世界模型,利用多目标驾驶指标(如无责碰撞、可行驶区域合规、交通灯合规、舒适度等)进行逆强化学习,实现了对驾驶行为多维度、细粒度的奖励建模。
- 在NAVSIM v2端到端驾驶基准上取得先进性能,EPDMS得分达74.9,在CVPR2025自动驾驶大奖赛中获得亚军,验证了框架在安全、舒适和效率方面的综合优势,为闭环自动驾驶VLA研究提供了新范式。

SparseMeXT(IROS 2025)
- 论文标题:SparseMeXT Unlocking the Potential of Sparse Representations for HD Map Construction
- 论文链接:https://arxiv.org/abs/2505.08808
- 提出机构:博世、上海大学、清华大学AIR、西交利物浦大学
- 一句话总结:本文系统性地重新设计并优化了基于稀疏表示的在线高精地图构建方法SparseMeXT,首次在nuScenes数据集上使稀疏方法的精度和效率全面超越现有密集BEV方法,实现了稀疏表示在HD地图构建任务中的突破性进展。
- 核心贡献:
- 针对地图任务优化的稀疏网络架构:提出专门为地图特征提取设计的网络结构,通过优化特征聚合与表示学习,解决现有基于3D检测的稀疏架构在地图任务中覆盖范围大、空间一致性要求高的不适应问题,显著提升了特征提取效率与表达能力。
- 稀疏-密集辅助分割监督机制:设计了一种基于查询的稀疏-密集实例到分割辅助任务,弥补了稀疏范式中缺少显式BEV特征网格的不足,使模型能够有效利用全局语义与几何信息,增强了地图重建的完整性与准确性。
- 基于物理先验的查询去噪策略(PPDN):针对地图元素的曲线结构特点,设计了包含旋转、平移、缩放和曲率调整四种物理噪声模式的去噪训练模块,通过引入符合真实几何约束的噪声扰动,显著提升了模型训练的稳定性与预测鲁棒性。
- 全面的性能优势验证:在nuScenes数据集上,SparseMeXT系列模型在保持高效率(最高32.9 FPS)的同时,mAP显著领先于现有稀疏与密集方法,其中SparseMeXT-Large达到68.9% mAP,长距离感知(90m范围)任务上亦大幅领先,证明了稀疏方法在高精地图构建中的强大竞争力与实用潜力。

Impromptu VLA
- 论文标题:Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
- 论文链接:https://arxiv.org/abs/2505.23757
- 项目主页:http://impromptu-vla.c7w.tech/
- 提出机构:清华大学 AIR,博世
- 一句话总结 :为解决自动驾驶模型在"长尾"非结构化道路场景(如模糊路界、临时交通规则、非常规障碍物等)中性能不足的问题,本研究提出并构建了大规模、高质量、多任务标注的Impromptu VLA 数据集,该数据集从超 200 万原始片段中精选约 8 万段,并系统定义了四类非结构化场景分类体系;实验表明,基于该数据集训练的 VLA 模型在闭环安全评估与开环轨迹预测任务上均取得显著性能提升,同时其规划导向的问答体系可作为诊断工具,精准评估模型在感知、预测与规划等维度的能力演进。
- 核心贡献:
- Impromptu VLA 数据集:首个大规模、公开可访问、专注于多样化非结构化驾驶场景的数据集,包含约 8 万段视频片段,覆盖"边界不清道路""临时交通规则变化""非常规动态障碍物""恶劣道路条件"四大挑战类别,并提供了丰富的多任务问答注释及动作轨迹,有效填补了现有自动驾驶数据在非结构化场景上的空白。
- 系统化非结构化场景分类学与自动化数据构建流水线:提出了一套数据驱动的非结构化道路场景分类体系,并设计了一个以视觉语言模型(VLM)为核心的自动化数据筛选、分类与标注流程,结合链式思维(CoT)推理与人工验证,实现了高质量、可扩展的多任务标注生成。
- 全面的实验验证与诊断能力证明:通过闭环(NeuroNCAP)与开环(nuScenes 轨迹预测)基准测试,实证了使用 Impromptu VLA 数据集训练的 VLA 模型在安全评分、碰撞率及轨迹精度上均有显著提升;同时,数据集自带的规划导向问答验证集被证明是一个有效的诊断工具,能够清晰量化模型在感知、预测与规划等关键能力上的进步。

DiffVLA
- 论文标题:DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2505.19381
- 提出机构:博世(RIX),清华大学(AIR),上海大学,上海交通大学,东南大学
- 一句话总结:本文提出DiffVLA,一种面向自动驾驶的视觉-语言引导扩散规划框架,通过结合视觉语言模型的语义引导、混合稀疏-稠密感知以及高效的扩散轨迹生成,在复杂闭环场景中实现安全、多样且拟人的驾驶行为生成,显著提升端到端自动驾驶系统的决策鲁棒性与泛化性能。
- 核心贡献:
- 提出一种新颖的混合稀疏-稠密扩散策略,将稠密BEV特征与稀疏实例级感知(如障碍物、车道线)相结合,增强对动态场景的结构化理解与碰撞规避能力。
- 引入VLM命令引导模块,基于Senna-VLM架构实现多视角图像与导航指令的融合理解,输出高层驾驶决策(横向/纵向控制),为扩散规划提供语义层面的行为引导。
- 设计基于轨迹词汇的离散化扩散规划器,通过构建轨迹词汇表并结合截断扩散策略与层次化信息编码,实现高效、多模态的轨迹生成与优化。
- 在NAVSIM v2闭环评测基准上取得领先性能,综合指标EPDMS达到45.0,并在碰撞率、可行驶区域合规性、交通信号遵守等多个子任务上表现优异,验证了框架在真实与合成复杂场景中的有效性与鲁棒性。
- 提出两阶段训练策略,分阶段优化VLM、稀疏感知、稠密感知与规划模块,并在训练中冻结部分模块以提升稳定性和收敛效率,为大规模端到端自动驾驶系统训练提供了可行方案。

DINO-R1
- 论文标题:DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
- 论文链接:https://arxiv.org/abs/2505.24025
- 项目主页:https://christinepan881.github.io/DINO-R1
- 提出机构:博世北美研究中心,博世人工智能中心,得克萨斯农工大学
- 一句话总结 :受语言模型中强化学习推动推理能力进步的启发,本研究首次将类似思想引入视觉基础模型,提出Group Relative Query Optimization训练策略,通过查询级相对奖励与KL正则化,显著提升了视觉提示检测中的泛化与推理能力,为视觉模型的"思考式"训练开辟了新路径。
- 核心贡献:
- 提出Group Relative Query Optimization,首个面向视觉提示检测的强化式训练范式,通过组内查询的相对奖励机制,实现对高方差视觉样例的鲁棒对齐与泛化。
- 设计了查询级相对奖励模块 与KL散度正则化策略,前者通过组归一化优势信号增强查询表达与监督密度,后者通过约束目标分布稳定性防止训练漂移与灾难性遗忘。
- 构建了VIS-G-DINO 视觉提示检测框架及其强化训练版本DINO-R1,实现了从文本提示到视觉提示的无缝扩展,并在训练中融入了视觉引导的查询选择机制。
- 在COCO、LVIS和ODinW等多个数据集上系统验证了DINO-R1的优越性,其在零样本与微调设置下均显著优于传统监督微调基线,展现出更强的跨域泛化与视觉上下文推理能力。

....