51c自动驾驶~合集18

自己的原文哦~https://blog.51cto.com/whaosoft/11777628

#DDMPC-for-AV-steering

同济大学 | 用于自动驾驶汽车转向的数据驱动模型预测控制

论文链接：https://arxiv.org/pdf/2407.08401
项目主页：https://john0915aaa.github.io/DDMPC-for-AV-steering/

摘要

本文介绍了用于自动驾驶汽车转向的数据驱动模型预测控制。随着自动驾驶技术的发展，对车辆控制的要求越来越高，MPC已经成为工业界和学术界广泛研究的主题。现有的基于车辆运动学或者动力学的MPC控制方法存在建模困难、参数众多、非线性强以及计算成本高等挑战。为了解决这些问题，本文提出了一种用于自动驾驶汽车转向的数据驱动MPC控制方法。该方法避免了复杂车辆系统建模的需求，并且以相对较低的计算时间和较小的误差实现了轨迹跟踪。本文通过Carsim-Simulink仿真验证了所提出的算法在特定场景下的控制效果，并且与PID和车辆运动学MPC进行比较分析，证明了所提出算法的可行性和优越性。

主要贡献

本文的贡献总结如下：

1）本文基于自动驾驶汽车的特性，通过修改和设计现有算法，提出了一种用于汽车转向的数据驱动模型预测控制算法；

2）本文通过仿真实验验证了DDMPC应用于自动驾驶汽车转向的可行性，并且通过与其它算法的比较证明了该算法的优越性。

论文图片和表格

总结

本文研究并且实验验证了所提出的用于自动驾驶汽车转向控制的数据驱动MPC算法。实验表明，该算法可以实现稳定的前轮角度控制来跟踪参考轨迹，并且与传统的MPC算法相比，它有效地降低了控制误差和计算时间。

本文今后的工作将着重于增强算法的鲁棒性和实时性，以进一步改进其在各种驾驶条件下的有效性。

#端到端~

"要么拥抱端到端，要么几年后离开智驾行业。"

特斯拉率先吹响了方案更新的号角，无论是完全端到端，还是专注于planner的模型，各家公司基本都投入较大人力去研发，小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案，效果着实不错，非常有研究价值。

为什么需要端到端？

首先我们聊一下当前的主流自动驾驶方案，主要核心部分包括：感知模块、预测模块、规控模块。每个模块相对独立，感知模块给预测模块提供动静态障碍物信息；预测模块为规控模块提供规划的参考，规划再转换为控制指令。从传感器端到控制端，需要多个功能支持，这就不可避免导致了累积误差，一旦碰到问题，需要整个pipeline做分析。而且每个模块的优化，并不能保证整个系统达成最优解。

这个时候，就希望有一种模型能够完成感知信息的无损传递，即从传感器端到输出控制策略端，这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单（比如机动车、行人、甚至occ输出的非通用几何障碍物）的检测与预测来完成，是人为定义的规则和抽象。随着产品的迭代，每一次都需要添加各类case，设计各种博弈的策略，从模型训练到工程部署再到逻辑设计，时间和人力成本高昂。

而且这种方式无法罗列所有情况，那么是否可以通过对整个场景的学习抽象，无损的将所有信息传递给PnC部分？这就是我们期望的端到端。端到端核心是优化最终目标且全局可导，作为一个完整的优化任务来看，直接求最优解，而不是先求感知再求规控的最优解。

端到端效果怎么样？

今年各大自动驾驶公司都在预研和落地相关端到端方案，小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显，各大自动驾驶公司都在拼命布局揽人，对应岗位薪资水涨船高，某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢？先来看看国外的特斯拉：

再来看看国内的UniAD效果：

不得不说，端到端是一个更简约的方法，更具有全场景的优化能力。

端到端有哪些技术栈？

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案（包括某鹏的XPlanner）。顾名思义，完全端到端是从传感器直接到规控；而专注于planner的端到端以感知模块的输出作为先验，替换原来以规则作为主要形式的PnC模块。

从传感器到控制策略的（如果把条件再放松下也可以到轨迹输出）完全端到端方案更为简约，但同样面临一个问题，可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性，但训练仍然是个难题。在足够体量和质量的数据群下，效果能够得到保证，泛化性能也不错。

而专注于planner的端到端方案，如果深究的话，只能算狭义上的端到端，但更贴合当下的量产方案和任务，而且可解释性也较高，是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看，又可以分为纯视觉方案（UAD、UniAD这类）

和多模态方案（FusionAD这类），传感器成本不断在下降，多模态方案也一直是行业里面都在关注的点。

端到端的难点在哪里？

端到端的优势非常突出，但仍然有很多难点需要攻克。主要在于**数据难定义、数据难制作、网络不好训练、模型不好解释优化、评测定义多种多样！很多公司无法像特斯拉一样获取海量数据，这也是个巨大的瓶颈。**今年年中，xx收到了很多同学关于端到端实战相关的需求，虽然我们已经筹备过相关的内容，但早期端到端方案不够成熟，更多是以论文切入。工业界使用的方案关注较少，代码层面上也很少提及。

从基础问题，到当下大热的端到端路径规划

1资本市场狂欢下的机器人产业

以前段时间刚发布了，号称***"地表最先进"人形机器人*** Figure 02 的初创公司 Figure AI 为例，其背后的资方几乎占据了硅谷的半壁江山。

Figure AI 的背后就除了有大名鼎鼎的Open AI，还有微软、亚马逊、英特尔资本、LG和三星等诸多知名科技巨佬。

国内的云深处 （四足机器人公司）前几天宣布完成B+轮融资，作为全球四足机器人五大厂商之一，本次投资方包括华建函数投资、涵崧资管、深智城产投、莫干山高新投资等机构。

光说这几家的名字可能有部分人觉得不熟悉，但他们背后几乎都有***国资机构的身影。***而且在云深处的这几轮融资中，国资机构可谓是出现得越来越频繁了。

足以可见无论是国内外，资本市场对于机器人产业腾飞的看好，以及政策、股市释放出的诸多利好信号。

2移动机器人技术的发展

路径规划是机器人技术中的关键过程，同时在自动驾驶和物流配送等领域发挥着重要作用。

因此，本次我们重点聊聊移动机器人的运动规划问题。

1、基础问题：训练效率与组合优化

在路径规划中，训练效率和复合优化是两大挑战。

**训练效率：**在机器学习特别是强化学习应用于移动机器人路径规划时，训练效率是核心挑战之一。算法需要在有限的时间内学习复杂的环境交互，以达到高效导航。研究者通过设计更高效的探索策略、利用迁移学习和多任务学习等方法，来加速模型的收敛，减少训练时间和资源消耗。

**组合优化：**移动机器人路径规划中的组合优化问题，如寻找最短路径、避开障碍物的同时考虑多目标约束，是一个NP-hard问题。采用启发式算法（如遗传算法、模拟退火、A*搜索等）和混合整数规划方法，可以在保证一定解质量的同时，提高求解速度，实现路径的优化。

关于这一问题，西北工业大学引入了高效渐进策略增强（EPPE）框架，该框架结合了稀疏奖励的优势，旨在为智能体实现全局最优策略，同时提供过程奖励以实时反馈智能体的策略调整。此外，还提出了增量奖励调整（IRA）模型，以逐步增加复合优化部分的奖励权重。支持IRA模型的微调策略优化（FPO）模型在整个过程中逐步调整学习率。

对于他们这项工作有兴趣的朋友，可以在8月13日晚和西北工业大学航空宇航科学与技术专业的赵望同学进行进一步深入探讨（其论文在控制会议上发表并获得杰出论文）。

2、集群规划问题

在移动机器人运动规划中，还有一个经久不衰的问题，那就是集群规划。

在集群规划中，多个移动机器人需要协同工作，完成复杂任务，如搜索与救援、货物运输等。这要求机器人之间有高效的通信机制和协调策略，以避免碰撞、优化整体路径和任务分配。研究重点包括分布式规划算法、多机器人协同策略以及动态环境下的自适应调整。

在传统轨迹优化中考虑避碰可以实现集群的流畅飞行。

然而，在高通信延迟和快速机动时，其难以实现较高的机间避碰频率。集中式轨迹规划可以释放大量算力用于集群感知、定位和决策，而高频率分布式避碰控制则更适用于通信延迟和快速机动的场景。

因此，关于这一问题也值得技术研究人员，深入探讨。

3、端到端路径规划

近年来，端到端（End-to-End）学习在移动机器人路径规划中的应用是一大热点。这种方法直接从传感器输入到行为输出进行学习，无需显式建模环境或规划中间步骤。

其中"端到端控制"是指模型输入传感器数据输出车辆的控制信号。

"端到端路径规划"是指模型输入传感器数据输出规划（预测）的路径点，然后用控制算法将这些点转化成车辆的控制信号。与常规的路径点生成方式不同。

8月份在慕尼黑工业大学主讲 自动驾驶相关课程，指导二十多名硕士研究生完成论文研究的周立国老师将就"端到端路径规划" 中路径点的链式生成，可以在许多场景下获得较好的规划效果，进行具体分享。

3深入移动机器人运动规划

得益于巨大的潜力市场、广阔的应用领域、政策的大力支持，使得【机器人赛道】这个万亿市场强势开启，其迅猛程度不亚于N年爆火的智能驾驶行业。

因此，本月深蓝学院特意筹办了【移动机器人运动规划】主题月，除了建立交流群供大家探讨之外，还邀请了三位研究不同细化方向的研究人员开设了3场直播交流分享，以期促进国内对于这一主题的研究与了解。

本次内容涵盖：从基础问题的研究（训练效率和组合优化），到经久不衰的集群规划问题，最后落到当下大热的端到端路径规划研究上。 开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

#OASIS SIM V3.0

AI重塑端到端自动驾驶仿真

亮点1：

独创的AI多智能体对抗技术，可规模化生成CornerCase(长尾场景)

OASIS SIM V3.0版本集成了深信科创独创的AI多智能体对抗行为模型，该模型通过AI技术可自动生成复杂的交通场景和对抗场景，在丁/十字路口场景、行人场景、车道加减等常见测试中，AI多智能体对抗行为模型的对抗 有效率可达到≥96%，每发现一个算法bug（缺陷）/issue（问题）用时3-5分钟，显著提升了测试的速度和效率，大幅领先于传统的人工测试方法。

弯道处对抗

超车切入并紧急制动

多车对抗

亮点2：

高精度传感器模型，增强仿真有效性

OASIS SIM V3.0版本基于精确的物理模型，实现了多种传感器的高精度模拟，能够实现传感器采集层 、模型层 、协议层 的全流程仿真。摄像头 可模拟长焦、广角、鱼眼、双目等各种镜头类型，仿真畸变、运动模糊、晕光、过曝、脏污、噪声等特性。激光雷达模型通过对扫描特性、传播特性进行物理建模，实现运动畸变、噪声、强度的模拟，可以仿真不同型号的激光雷达，并生成接近真实雷达的点云数据。

激光雷达仿真

摄像头仿真

亮点3：

兼容第三方软件场景，支持OpenSCENARIO标准格式场景文件导入，通信模块支持OSI接口

OASIS SIM V3.0增加了对部分第三方仿真软件场景文件的兼容性适配，支持导入OpenScenario标准场景文件，并自动转换场景文件信息，以确保场景执行的一致性。用户可以迁移存量场景库，或者从市场购买商业场景库，避免重复工作。

ASAM OSI可以为自动驾驶功能和驾驶模拟的多样性提供框架，允许用户通过标准化接口，连接任何 自动驾驶功能和任何驾驶模拟器工具。OSI标准最大的特点是简化了集成性 ，进而显著增强了虚拟测试的可访问性 和适用性。OASIS SIM V3.0在原有通信和接口调用的基础上新增了OSI适配，增加了算法接入、联合仿真、数据存储的便捷性。

亮点4：

实时多传感器仿真，支撑HIL测试

OASIS SIM支持主从架构部署，通过multiple-GPU 实现多路摄像头、激光雷达的数据生成，长时间稳定运行，并且灵活扩展。OASIS SIM可与NI、dSPACE等实时系统以及CarSIM、ASM、CarMaker等进行联合仿真 ，充分支持多传感器配置下的HIL\VIL测试。

OASIS V3.0功能亮点

1、新增地图编辑器功能

OASIS SIM V3.0新增地图编辑器模块，支持3D图形化编辑与预览地图，功能包括有：

基础道路绘制：绘制直线、曲线、坡度和交叉路口等基础道路元素。
车道编辑：支持车道的增减和调整，可以根据仿真需求灵活设置车道数量和宽度。
坡度与倾角调整：精确控制道路的高程曲线以及道路倾角，模拟各种地形条件。
车道线与道路标识绘制：支持自定义车道线和道路标识，包括实线、虚线、双黄线等，以及各种交通标志和路面标记。

2、程序化场景生成

OASIS SIM V3.0支持直接导入OpenDrive 文件，并自动识别和解析道路网络等关键信息自动化生成三维场景，无需复杂的建模和人工编辑，提高了场景构建的速度和效率。

3、新增高效便捷的工作台

工作台集成场景运行控制，快捷入口与运行记录三大功能模块，高效实现仿真场景运行管理与监控，为用户带来更便捷的操作与体验。

4、高效的测试用例管理与评测管理

为提高仿真场景的测试效率，OASIS SIM V3.0支持多选场景创建测试用例， 并对运行结果进行记录，生成测试报告 ，帮助用户更快速地分析测试结果。平台提供用例的存储与检索功能，可随时查看每个用例的历史运行记录，对信息进行查看与追溯。

SYNKROTRON® OASIS SIM自动驾驶仿真平台，通过不断的技术创新和深入的用户反馈，提升仿真置信度、实时仿真的稳定性、场景生成的多样性、操作体验的友好性以及规模化部署的灵活性。我们致力于提供一款功能全面、可靠易用的仿真软件，支撑SIL/HIL/VIL测试，提高用户的测试效率和有效性，同时降低仿真测试的成本，助力自动驾驶技术的商业化落地。

#MV2DFusion

真正的多模态学习？北航&小米新作内容速览

提出了一个名为MV2DFusion 的多模态检测框架 ，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

论文信息

题目：MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

作者：Zitian Wang, Zehao Huang, Yulu Gao, Naiyan Wang, Si Liu

机构：北京航空航天大学人工智能研究所和小米汽车

原文链接：https://arxiv.org/pdf/2408.05945v1

摘要

随着自动驾驶车辆的发展，对稳定精确的三维目标检测系统的需求日益增长。尽管相机和激光雷达（LiDAR）传感器各自具有其独特的优势------例如相机能提供丰富的纹理信息，而激光雷达则能提供精确的三维空间数据------但过分依赖单一的传感模态常常会遇到性能上的局限。本文提出了一个名为MV2DFusion的多模态检测框架，它通过一种先进的基于查询的融合机制，整合了两种传感器的优势。该框架引入了图像查询生成器来对齐图像特有的属性，并通过点云查询生成器，有效地结合了不同模态下目标的特定语义，避免了对单一模态的偏好。基于这些宝贵的目标语义，能够实现基于稀疏表示的融合过程，确保在多样化的场景中都能进行高效且准确的目标检测。作者所提出的框架在灵活性方面表现出色，能够与任何基于图像和点云的检测器集成，显示出其适应性以及未来发展潜力。在nuScenes和Argoverse2数据集上的广泛评估结果表明，MV2DFusion在多模态3D检测方面达到了最先进的性能，特别是在长距离检测场景中表现突出。

文章简介

自动驾驶车辆的发展极大地推动了对三维目标检测技术的需求。不同的传感器，如相机和激光雷达（LiDAR），基于其成像原理的不同，能够捕获现实世界中物体的不同特征。这些不同模态的固有特性使它们能够从不同的视角区分物体。例如，物体在图像中以富含纹理的像素区域呈现，而在点云中则以一组3D点的形式呈现。近年来，无论是基于相机的检测还是基于激光雷达的检测，都取得了显著的进展。然而，依赖单一传感模态的检测方法存在其固有的局限性。图像缺乏深度信息，无法指示物体的三维位置；而点云则缺少丰富的语义信息，且在捕捉远距离物体时因稀疏性而受限。

为了充分发挥两种传感模态的优势，研究者们提出了多模态融合方法，旨在结合两种模态的优势。当前的多模态融合方法主要分为两大类：特征级融合和提议级融合。特征级融合方法通过构建统一的特征空间，提取不同模态的特征以形成多模态特征体。例如，DeepFusion和AutoAlign利用点云特征查询图像特征，增强了点云特征的表示。BEVFusion将图像和点云特征转换到鸟瞰图（BEV）空间并进行融合。CMT不构建统一的特征空间，而是采用统一的注意力机制来聚合图像和点云特征。尽管特征级融合方法在目标识别和定位方面表现出直观的优势，但它们并未完全挖掘原始模态数据中嵌入的目标先验信息，有时甚至会在融合过程中损害强烈的模态特定语义信息。

与此相对，提议级融合方法利用特定于模态的提议，以最大限度地利用模态数据。例如，F-PointNet将检测到的图像边界框转换为截头锥体，以便从点云中提取物体。FSF和SparseFusion首先分别从图像和点云中生成提议，然后将它们统一为基于点云的实例表示，以进行多模态交互。然而，在这些方法中，表示往往会偏向于某一模态，如在FSF中相机提议主导了多模态融合过程，而在SparseFusion中，图像提议实质上被转换为与点云提议相同的表示。

为应对这些挑战，本文提出了一个名为MV2DFusion的多模态检测框架。该框架扩展了MV2D以纳入多模态检测，采用目标即查询的设计，便于自然地扩展到多模态环境。作者重新设计了图像查询生成器，使其更贴合图像模态的特性，引入了不确定性感知的图像查询，以保留图像中的目标语义，并继承了丰富的投影视图语义。通过引入点云查询生成器，作者还能够获取来自点云的目标语义，并将其与图像查询结合。然后，通过注意力机制进行融合过程，从而轻松地整合来自两种模态的信息。

本文提出的框架设计精心，充分利用了模态特定的目标语义，不受特定表示空间的限制。此外，它还允许集成任何类型的图像检测器和点云检测器，展示了框架的通用性和扩展性。得益于融合策略的稀疏性，作者的框架也适用于远程场景，避免了内存消耗和计算成本的二次增长。通过最小的修改，该框架还可以轻松地结合基于查询的方法，有效利用历史信息，如StreamPETR。作者在nuScenes和Argoverse 2等大规模三维检测基准上评估了作者提出的方法，实现了最先进的性能。

作者的贡献可以概括为：

提出了一个框架，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

总结来说，作者的方法在多模态三维检测方面取得了进步，提供了一个既稳健又多功能的解决方案，充分利用了相机和激光雷达两种传感模态的优势。

详解MV2DFusion

概述

图 1 展示了 MV2DFusion 的整体流程。该模型接收个多视角图像和点云数据作为输入，并通过独立的图像和点云网络主干提取各自的特征。利用这些特征，模型分别应用 2D 图像检测器和 3D 点云检测器，得到各自的检测结果。然后，基于这些特征和检测结果，生成图像查询和点云查询，这些查询随后输入到融合解码器中。在解码器中，查询会整合两种模态的信息，进而生成 3D 预测结果。以下各节将详细描述每个部分的详细信息和设计原则。

图1. 提出的MV2DFusion框架结构。该模型接收多视图图像和点云作为输入，通过独立的图像和点云主干网络提取模态特征。同时，应用基于图像的2D检测器和基于点云的3D检测器于这些特征上，得到各自的检测结果。然后，根据模态特征和检测结果，由各自的查询生成器生成图像查询和点云查询。最终，这些查询和特征输入到融合解码器中，在查询更新后整合两种模态的信息，形成3D预测。

利用模态特定的目标语义

作者设计了一种融合策略，它能够在不偏向任何单一模态的情况下，挖掘并融合不同模态中的原始信息。具体来说，作者不是在 3D 空间中直接表示和融合整个场景，而是通过提取并融合各自模态的目标语义来进行多模态 3D 检测。这种策略不仅保留了每种模态的独特优势，而且通过稀疏性降低了计算成本和内存使用。

来自模态特定专家的目标提议

首先，作者分别对图像和点云模态采用独立的网络主干进行特征提取。图像模态通过带有特征金字塔网络（FPN）的图像主干网络，从多视角图像中提取出特征集合。这些特征集合捕捉了图像中丰富的纹理信息，为2D检测任务奠定了基础。对于点云模态，点云主干网络则提取点云数据的体素特征，这些特征直接反映了物体在三维空间中的几何形状和分布。在特征提取阶段，图像分支和点云分支独立运作，没有进行信息交互，这样做的目的是为了保留每种模态信息的独特性质。

基于这些特征，作者进一步利用模态特定的检测专家来识别和生成目标提议。在图像分支中，作者可以使用任意结构的2D检测器，包括基于锚点或无锚点的检测器，以及两阶段或一阶段的检测策略。这些检测器为每张图像生成一组2D边界框集合，每个边界框由其在图像上的坐标定义。而在点云分支中，作者采用稀疏检测器直接在体素上操作，这些检测器能够处理稀疏的三维数据，并生成一组3D边界框，每个边界框由其在三维空间中的位置和尺寸定义。

通过这种独立且互补的方法，作者能够有效地整合来自不同模态的信息，为多模态3D检测任务提供了丰富的特征表示和精确的目标提议。这种策略不仅保留了每种模态的独特优势，而且通过稀疏性降低了计算成本和内存使用，为实现高效和准确的3D检测提供了可能。

从专家系统中提取目标级语义

尽管两种检测结果都为识别目标提供了宝贵的线索，但它们的表现形式本质上是不同的。基于点云的3D检测在3D空间中呈现，而基于图像的2D检测则在投影的2D空间中呈现。这种巨大的领域差异导致直接融合这些信息变得困难。在本文中，作者提出从检测结果中提取目标级语义信息，而不是直接融合原始的检测结果。

由于点云通常沿着目标表面分布，它们擅长准确捕捉目标的形状和姿态。但与点云不同，图像中无法直接推断出目标的3D姿态。相反，目标在图像平面中的分布可以作为3D定位的线索，考虑到投影原理。另一方面，图像像素可以描述具有丰富纹理的目标，即使在远处点云可能无法捕捉到目标的地方。

考虑到这些不同的特点，作者采用目标查询的形式来编码每种模态的目标级语义，然后可以无缝集成多模态信息。在现代基于变换器的检测框架中，每个目标查询通常由两部分组成：内容部分和位置部分。在获得基于图像的检测结果和基于点云的检测结果后，作者根据边界框和相应的模态特征构建目标查询。作者将在以下部分详细描述每种模态的目标查询生成过程。

点云目标查询的生成

在基于点云的3D检测中，检测结果直接在三维空间中给出，为此作者采用了表示目标实际位置的中心点作为查询的位置部分。对于查询的内容部分，作者融合了外观和几何特征。点云查询由以下公式定义：

点云查询生成器的详细过程如图2所示。

图2. 点云查询生成器的说明图。为简化起见，省略了一些上标和下标。

外观特征的具体形式依赖于所使用的检测器类型。例如，在基于中心点的检测器中，外观特征是每个体素网格内的值；在两阶段检测器中，则是感兴趣区域（RoI）特征。在作者的实现里，使用的是一个稀疏点云的3D检测器，因此外观特征即为体素特征，这些特征直接用于生成预测结果。几何特征则被视为目标的物理属性，例如大小和航向角，这些在检测结果中有明确的表示。内容部分的计算公式如下：

这里的表示正弦位置编码，它负责将低维向量转换成高维特征以便于处理。

图像目标查询的生成

生成图像查询的一种直观方法是使用基于图像的3D检测器，并将检测到的目标实例转换为图像查询。这样，作者可以方便地获得与点云查询格式一致的图像查询，从而促进多模态之间的信息融合。然而，由于不同模态之间的固有差异，强制它们采用相同的查询格式可能会影响性能。特别是，从图像中估计深度存在一定的不确定性，这可能会导致3D预测出现较大的误差，进而影响图像查询的特征质量和定位准确性。为了解决这个问题，作者引入了一种新颖的基于2D检测的不确定性感知图像查询。

对于第个摄像机视图生成的查询，其内容部分是包含了几何信息的兴趣区域（RoI）外观特征。至于位置部分，作者不采用以往工作中的估计目标中心，而是保留图像中深度估计的不确定性。具体来说，作者通过概率分布而非确定值来表示查询位置。这些分布通过分类分布来建模，包括个采样位置及其对应的概率。

第个摄像机视图的图像查询表示为。所有摄像机视图的图像查询聚合为：

采用这种不确定性感知的图像查询表示，作者可以对目标位置做出初步估计，并减轻由相机到世界坐标系投影带来的误差。具体的处理流程如图3所示。

图3. 图像查询生成器的说明图。为简化起见，省略了一些上标和下标。

给定第个图像的2D检测结果和图像特征图，图像查询生成器首先通过RoI-Align提取RoI目标外观特征：

此外，作者还引入了相机内参矩阵以补充RoI-Align过程中丢失的几何信息。原始的相机内参矩阵表示为：

然后，作者定义从相机坐标系到第个2D边界框的投影的等效相机内参矩阵：

其中，。

图像查询的内容部分由外观特征和几何信息参数化：

至于位置部分，作者在预定义的深度范围内均匀采样得到深度集合。然后预测一组2D采样位置和相应的概率：

通过2D采样位置和深度值，作者可以得到3D采样位置，通过相机到世界坐标系的投影。

注意，基于分布的编码格式虽然与LSS有相似之处，但它实际上并没有将查询特征分布到3D空间中。这种编码方式不仅节省了计算资源和内存，而且在深度预测不准确时提高了模型的鲁棒性。此外，它还为后续进一步细化位置提供了机会，这将在后续部分进行讨论。

融合模态信息

本节介绍如何融合不同模态的信息以提升检测性能。作者借鉴了检测变换器（Detection Transformer, DETR）的思想，采用解码器结构进行模态信息融合和结果预测。该解码器包含L层，每层由自注意力模块、交叉注意力模块、层归一化、前馈网络和查询校准层组成。作者将点云查询和图像查询结合作为解码器的输入。初始输入查询表示为，经过第l层后的查询表示为。

以下是各模块的详细描述：

自注意力机制

如公式（1）和公式（3）所述，模态查询具有不同的表达形式，即和。为使它们能够与标准的自注意力层兼容，作者保留了内容部分，并把位置部分转换成一致的表示形式。作者采用了位置编码(Positional Encoding, PE)方法和不确定性感知位置编码(Uncertainty-Aware Positional Encoding, U-PE)方法，分别为每种模态生成了位置编码和：

在位置编码（PE）中，是从中心点

其中 SinPos 表示正弦位置编码。在不确定性感知位置编码（U-PE）中，作者先将转换成基础位置编码，然后通过门控操作将概率分布融合进

这里的 Flat() 是指展平操作，表示元素级的乘法，σ 是 Sigmoid 函数。根据多头注意力（Multi-Head Attention, MHA）的标准表示，自注意力可以表达为：

其中是和连接起来的位置编码，

跨模态注意力

尽管在自注意力层中仅通过查询间的信息交换已经能够得到相当不错的预测结果，实验表明，在变换器解码器中加入跨模态注意力层可以进一步带来性能上的提升，尽管这会使得模型的复杂度增加。跨模态注意力层的核心目标是整合各自模态特有的有用特征，以此来更新查询，这一过程在图4中有所展示。

图4. 交叉注意力层的演示。点云查询和图像查询聚合多模态特征以获取有用信息。这两种查询在与特征交互之前各自经过处理。

对于图像特征的处理，作者采用了基于投影的可变形注意力机制。具体操作是，首先确定每个查询的锚点。对于点云查询，其锚点直接对应于它们的三维空间位置。而图像查询的锚点是根据概率分布对采样位置加权平均后得到的。对于第

基于投影的可变形注意力的计算方法如下：

在这个公式中，注意力权重和偏移量是根据内容部分预测得到的。代表采样点的总数，表示从世界坐标系到相机坐标系的投影，而代表查询的模态（可以是图像或者点云）。对于点云特征，如果模型接受的是BEV（鸟瞰图）形式的点云特征，可以采用类似的可变形注意力操作来实现信息交换。在当前实现中，点云特征由稀疏体素构成，形成了一个完全稀疏的模型。在这种情况下，作者使用标准的多头注意力机制来聚合点云特征。通过柱状化（例如，沿高度方向进行平均池化）处理以生成内容部分。柱特征的位置编码根据BEV位置

查询校准

通过参考其他查询和模态特征，每个查询能够对其代表的目标做出更加精确的描述。由于不同模态的特性差异，作者认为图像查询的位置信息相对不够可靠，而点云查询的位置信息则更为准确。为此，作者在每个解码器层之后对图像查询进行校准，利用更新后的特征来精细化图像查询的位置，并减少由于不确定性带来的影响。在这个过程中，仅对概率分布进行细化，而保持采样位置不变。具体来说，最新的概率分布

查询校准层的操作将会影响到位置编码以及锚点。

模型输出

经过最终解码层的处理，作者得到了目标查询，随后通过分类头和回归头对其进行处理，以产生模型的最终输出。具体来说，作者利用上下文特征来计算分类得分：

对于回归目标，作者关注的是目标的位置、尺寸、旋转以及在需要时的速度（包括坐标、表示的宽度、长度和高度，以及旋转角和速度向量）。回归过程基于上下文特征和锚点

其中，

时序信息的利用

为了增强模型对时序信息的捕捉能力，作者采用了一种高效的基于查询的时序融合方法，该方法的计算成本极低。具体实施策略是，作者维护了一个大小为的历史查询队列来记录历史信息。在完成当前帧的预测任务后，作者将得分最高的个目标查询加入到中，使得这个队列能够反映过去帧的历史数据。历史查询队列随后被整合到自注意力层的处理中。首先，作者利用时间延迟、自我姿态以及速度

这里的是一个小型网络，负责对相关的时间信息进行编码。变换后的查询

损失函数

在作者的MV2DFusion框架中，模态特定的查询生成器能够与任何类型的基于图像的2D检测器和基于激光雷达的3D检测器无缝配合。这些检测器可以无需任何结构或损失函数的修改即可集成进作者的模型。它们预先训练好，以提供动态查询的优良初始化，并可在训练阶段与作者的模型联合训练。在此，作者将基于图像的2D检测器的原始损失函数记作，基于激光雷达的3D检测器的原始损失函数记作。对于融合解码器层的输出，作者继承了DETR中目标分配和损失函数的设计理念。作者采用匈牙利算法[62]来进行标签的分配，并使用焦点损失进行目标分类，以及L1损失进行边界框回归。最终的3D目标检测损失可以表示为：

除了目标检测的标准损失之外，作者还为图像查询生成器引入了额外的辅助监督，以改进深度估计。对于第幅图像预测的2D边界框以及从真实3D边界框投影得到的2D边界框，作者首先计算它们之间的成对交并比(IoU)矩阵，定义为。如果2D区域成功地与目标匹配，那么由图像查询生成器输出的深度分布将受到目标深度的辅助损失

这里的CELoss代表交叉熵损失。MV2DFusion的总体损失函数整合了上述所有损失，表示为：

各种损失项的权重

实验分析

数据集

nuScenes

作者在 nuScenes 数据集上开展实验，该数据集包含1000个场景。每个场景均配备由6个摄像头捕获的RGB图像，实现了360度的水平视场，同时结合了激光雷达数据。数据集中涵盖了10个不同类别的140万个3D边界框。作者依据数据集提供的评价指标进行性能评估，包括平均精度均值（mAP）和nuScenes检测分数（NDS）。

Argoverse2

作者在 Argoverse 2（AV2）数据集上进行了大量远程检测实验，以证明作者模型在远程检测任务上的优势。AV2是一个大规模数据集，感知范围可达200米，区域大小为400米×400米。该数据集共包含1000个序列，其中700个用于训练，150个用于验证，150个用于测试。每个序列通过7个高分辨率摄像头以20Hz的频率和1个激光雷达传感器以10Hz的频率记录。AV2在评估中除了使用平均精度（mAP）指标外，还采用了综合检测分数（CDS），该分数综合了AP和定位误差。

实现细节

MV2DFusion 默认使用 Faster R-CNN 结合 ResNet-50 作为基于图像的2D检测器，以及 FSDv2 作为基于点云的3D检测器。在基于图像的2D检测中，作者限制每张图像最多检测60个目标，而在基于点云的3D检测中，允许最多检测200个目标。作者保留了模态检测器的原始流程和超参数，以凸显作者方法的通用性。融合解码器共包含6层。所有实验在8个 Nvidia RTX-3090 GPU 上进行。所有模型均采用 AdamW 优化器进行训练，权重衰减设为0.01，并采用余弦退火策略，初始学习率设为

在 nuScenes 验证集上的实验中，输入图像分辨率设为1600×640，体素尺寸为(0.2, 0.2, 0.2)。作者使用了 nuImages 的预训练权重用于基于图像的检测器，以及 nuScenes 的预训练权重用于基于点云的检测器。为了防止过拟合，作者将基于点云的检测器冻结。整个模型在 nuScenes 训练集上训练了24个周期。在 nuScenes 测试集上的实验中，作者将基于图像的检测器更换为 Cascade R-CNN 结合 ConvNeXt-L，并在 nuScenes 训练集和验证集上训练整个模型48个周期，以获得更好的性能。

对于 AV2 数据集，输入图像分辨率设为1536×1184，体素尺寸为(0.2, 0.2, 0.2)。作者使用了 nuImages 的预训练权重用于基于图像的检测器，以及 AV2 的预训练权重用于基于点云的检测器。整个模型在 AV2 训练集上训练了6个周期。

与现有方法的比较

作者将 MV2DFusion 与其它最先进方法进行了比较。在 nuScenes 测试集和验证集上的结果分别展示在表1和表2中，而 AV2 验证集上的结果展示在表3中。

表1. nuScenes测试集上的性能对比。"-E"表示模型集成和测试时增强。作者的模型以灰色标出，加粗表示最佳性能。

表2. nuScenes验证集上的性能对比。作者的模型以灰色标出，加粗表示最佳性能。

表3. AV2验证集上的性能对比。†表示SparseFusion 的实现。"C"表示输入模态为相机，"L"表示输入模态为激光雷达，"CL"表示输入模态为相机和激光雷达。作者的模型以灰色标出，加粗表示最佳性能。

在 nuScenes 测试集上，作者的单模型方法达到了76.7%的 NDS 和 74.5%的 mAP，超越了所有先前的方法。与 FusionFormer相比，作者在 NDS 上提高了 1.6%，在 mAP 上提高了 1.9%。此外，与稀疏结构的 SparseFusion相比，作者在 NDS 上提高了 2.9%，在 mAP 上提高了 2.5%。在模型集成的情况下，作者的模型达到了 78.8%的 NDS 和 74.5%的 mAP，位列所有解决方案之首。这些结果展示了作者的模型在多模态3D检测性能上的显著优势。

在 nuScenes 验证集上，作者的模型使用 ResNet-50 作为主干网络，达到了 74.7%的 NDS 和 72.8%的 mAP。当使用 ConvNeXt-L作为主干网络时，性能提升到了 75.4%的 NDS 和 73.9%的 mAP。值得注意的是，即使使用了较弱的 ResNet-50主干网络，作者的模型也已经超越了当前的最先进水平。

在 AV2 数据集上，作者的方法达到了 48.6%的 mAP 和 39.5%的 CDS，显著超过了先前的方法。与基于激光雷达的最先进方法 FSDv2相比，作者的模型在 mAP 上提高了 10.6%，在 CDS 上提高了 9.3%。与多模态方法 SparseFusion相比，作者的性能提升了 8.8%的 mAP 和 8.5%的 CDS，并且在 mATE、mASE 和 mAOE 指标上也有显著的改进，证明了作者的方法在远程场景中的优越性能。

消融研究

本节中，作者在 nuScenes 验证集和 AV2 验证集上对 MV2DFusion 进行了消融研究。实验默认在 nuScenes 数据集上进行，除非另有说明。

图像分支的灵活性

MV2DFusion 兼容任何类型的2D和3D检测器。为了验证图像分支的灵活性，作者在表4中展示了不同检测器、不同图像分辨率和不同主干网络的实验结果。作者测试了三种2D检测器，包括单阶段检测器 YOLOX、双阶段检测器 Faster R-CNN和多阶段检测器 Cascade R-CNN。#2 至 #4 行展示了不同2D检测器的实验结果，证明了作者的框架能够适应不同类型的2D检测器。此外，通过比较 #1 和 #2 行，可以观察到更大的图像分辨率可以带来性能上的提升。从 #4 行和 #5 行的比较中可以看出，使用更强大的图像主干网络可以进一步提升性能，这表明在多模态环境中利用图像信息的重要性。

表4. 图像分支灵活性的消融研究。

激光雷达分支的灵活性

在表5中，作者比较了不同激光雷达检测器在模型分支上的表现。作者实验了包括两个稀疏检测器 FSDv2和 VoxelNeXt，以及一个密集BEV检测器 TransFusion-L在内的主流基于点云的3D检测器。实验结果表明，这些不同的激光雷达检测器都能很好地适应作者的框架，其中 FSDv2和 TransFusion-L的表现略优。为了与作者提出的稀疏融合策略相适应，作者选择 FSDv2 作为默认的基于点云的检测器。

表5. 激光雷达分支灵活性的消融研究。

模态鲁棒性消融研究

模态鲁棒性是融合方法在模态传感器失效时维持性能的关键特性。在表6中，作者验证了模型的模态鲁棒性。#1 行列出了在训练和评估中同时使用激光雷达和相机时的结果，这是作者的默认设置。#2 和 #3 行展示了在评估中缺少一种模态传感器的情况下的结果，尽管模型是使用两种模态训练的。相比之下，#4 和 #5 行展示了在训练和评估中使用相同模态传感器的情况下的结果。#2 和 #3 行的性能与 #4 和 #5 行相比有显著下降，这表明在传感器失效时存在较大风险。为了缓解这个问题，作者可以在训练中混合使用不同模态，即随机从[相机、激光雷达、相机和激光雷达]中选择输入模态，概率分别为[0.2, 0.1, 0.7]。如 #6 和 #7 行所示，在这种情况下，即使缺少激光雷达或相机传感器，模型仍然能够保持合理的性能。这些结果表明，通过增加单模态训练样本，可以有效地提高模态鲁棒性。将 #8 行与 #1 行进行比较，混合模态训练也在多模态场景中略微提升了性能。

表6. 模态鲁棒性的消融研究。"C"表示相机作为输入模态，"L"表示激光雷达作为输入模态，"CL"表示相机和激光雷达同时作为输入模态。

模态查询的消融研究

在本消融研究中，作者探讨了模态查询的不同表述方式对于模型性能的影响，结果详见表7。作者首先检验了在nuScenes和AV2数据集上，查询表述方式如何影响模型的表现。在图像查询中，作者沿用了MV2D中的点表达方式，即每个图像查询通过一个估算出的3D中心点来表示。在nuScenes数据集上，分布表达方式相较于点表达方式在NDS上提升了0.4%，在mAP上提升了0.3%，如表中的#1和#4行所示。而在AV2数据集上，分布表达方式的优势更加明显，CDS提升了2.2%，mAP提升了2.4%，如#5和#6行所示。这种性能上的显著提升可以归因于在长距离感知任务中，图像深度估计的困难性增加，此时点表达方式可能带来较大的误差。

表7. 模态查询的消融研究。"distribution"表示查询通过概率分布制定，"point"表示查询通过3D中心点制定。

此外，作者还评估了仅使用单一模态查询（即只有点云或只有图像查询）时的性能。结果表明，与使用两种模态查询相比，仅使用单一模态查询会导致性能下降，如表中的#1至#3行所示。这一发现证实了不同模态查询在提升整体检测性能方面的重要作用。通过这些消融实验，作者得出结论，有效的模态查询设计对于多模态3D检测框架的性能至关重要，而合理的模态融合策略可以显著提升模型对不同感知任务的适应性和鲁棒性。

解码器结构的消融研究

在本部分消融研究中，作者探讨了解码器结构对模型性能的影响，详细结果见表10。作者首先在#1至#4行中考察了不同层数的解码器对结果的效应。观察结果表明，总体上随着解码器层数的增加，模型的准确度也随之提升。但当比较3层与6层解码器时，性能的增加相对较少，这暗示了在超过3层之后，额外的层数对性能提升的贡献有所降低。

表10. 解码器结构的消融研究。

作者还评估了解码器中跨注意力层的作用，如#4行与#5行所示。移除跨注意力层会导致模型的NDS性能下降0.7%，mAP性能下降1.3%，这一发现强调了跨注意力层在增强解码器性能方面的重要性。尽管如此，即使在没有跨注意力层的情况下，模型依然能够维持74.0%的NDS和71.5%的mAP，这表明即使仅依赖于查询级别融合，作者的框架也能够实现可观的性能，从而证明了多模态查询设计的效率和鲁棒性。

历史信息的消融研究

在表11中，作者展示了历史信息对模型结果影响的消融研究。第1行结果未考虑历史信息。当作者纳入前6帧的历史信息时（第2行），NDS和mAP分别显著提升了1.6%和1.7%。第2行与第3行的对比揭示了增加历史查询数量可以进一步提升性能。特别是，扩展到12帧的历史信息，能够带来额外的0.2% NDS和0.3% mAP的性能增益，这表明模型能够从更丰富的历史信息中获益。

表11. 历史信息的消融研究。

内存成本比较

在表8中，作者对比了在nuScenes和AV2数据集上，作者的方法与传统的特征级融合方法BEVFusion的内存消耗情况。为了更全面地展示作者方法的效率，作者还实现了采用BEVPool V2技术的BEVFusion版本，该技术能显著加快视图变换过程。所有统计数据都是基于验证集的平均值。

表8. 不同数据集上内存成本的比较。

作者的模型在点云分支中仅产生稀疏的柱状特征，相较于BEVFusion的密集BEV网格特征，其特征规模更小。具体来说，与使用BEVPool V2技术的BEVFusion相比，作者的模型内存需求仅为其一半左右。在AV2这样的长距离数据集上，作者的柱状特征规模远小于BEVFusion的密集BEV特征规模。在保持相同分辨率的情况下，BEVFusion的内存消耗超过了24.5GB，而采用BEVPool V2的BEVFusion需要23.4GB的内存。相比之下，作者的模型仅需8.2GB的内存，大约是BEVFusion采用BEVPool V2版本内存成本的35%。这些结果证明了作者稀疏融合策略在内存消耗上的巨大优势。

推理速度测试

在表9中，作者评估了在两种不同配置下的推理速度：一种是nuScenes数据集的小分辨率图像和短感知范围，另一种是AV2数据集的大分辨率图像和长感知范围。测试的FPS是在批量大小为1的情况下进行的，并基于验证集的平均值。在nuScenes数据集上，尽管作者的模型与采用BEVPool V2的BEVFusion在点范围和图像分辨率上相近，作者的推理速度仍快于BEVFusion 25%（5.5 FPS对比4.4 FPS）。在资源需求更高的AV2数据集上，作者的稀疏模型显示出更显著的速度优势，在这种长距离感知场景中，作者的FPS是BEVFusion*的两倍（2.0 FPS对比0.9 FPS）。

表9. 不同数据集上推理速度的比较。

定性结果

作者通过图5展示了查询的可视化，以直观地理解模态特定的目标语义的互补性。真实目标以位于其中心的红色三角形表示。点云查询以蓝色圆圈表示，位于每个目标的中心点。图像查询以橙色线段表示，线段的位置指示采样位置，颜色的饱和度反映了概率分布。可视化结果表明，尽管在3D空间中查询较为稀疏，但它们仍然倾向于围绕物体分布，使得能够准确识别物体。此外，这些查询展示了它们在定位物体方面的不同能力：图像查询能够识别一些由于点云稀疏而未能检测到的物体（例如，在较远距离处）。同时，点云查询包含的3D信息有助于在拥挤场景中准确定位和区分物体，即使在图像查询难以实现这一点时。

图5. 模态查询的可视化。真实目标以位于其中心的红色三角形表示，点云查询以位于中心点的蓝色圆圈表示，图像查询以橙色线段表示，线段位置指示采样位置，颜色饱和度反映概率分布。

为了验证作者的查询校准设计，作者计算了图像查询位置与匹配的真值（Ground Truths）之间的均方误差（MSE），如图6所示。观察到随着解码器层的深入，MSE逐渐减小，这表明作者的查询校准能够逐步细化图像查询的位置。

图6. 计算图像查询与匹配的真实目标（GTs）之间的均方误差（MSE）。特别地，作者排除了所有点云查询，并在图像查询和GTs之间进行一对一匹配以计算MSE。

此外，作者在图7中展示了在nuScenes验证集上的预测结果可视化。可以看出，MV2DFusion能够检测到包括行人、车辆、障碍物、交通锥等在内的多种物体。

图7. nuScenes验证集上的预测结果可视化。

结论

本文提出了MV2DFusion，这是一个先进且高效的多模态目标检测框架。继承了前作MV2D将目标视为查询的核心理念，MV2DFusion进一步引入了针对不同模态特性设计的目标检测器，用以生成针对性的目标查询。随后，框架利用一个交叉注意力解码器，整合了来自激光雷达和图像数据的特征，以预测最终的检测结果。这种设计不仅保证了与多种图像及激光雷达检测器的兼容性，还因其融合过程的稀疏性，使得模型能够适应长距离的检测任务。作者在nuScenes和Argoverse 2等多个数据集上对框架进行了广泛的验证，证明了其相较于当前最先进方法的卓越性能。作者期望MV2DFusion的设计能够为多模态目标检测框架在学术研究和实际应用中的进一步发展做出贡献。

#Panacea++

升感知多项任务性能！自动驾驶全景可控视频生成

自动驾驶领域对高质量标注视频训练数据的需求日益增长。基于早期Panacea工作，本文提出了Panacea+，一个强大且普遍适用的框架，用于生成驾驶场景中的视频数据。在之前的工作Panacea的基础上，Panacea+采用了一种多视角外观噪声先验机制和超分辨率模块，以增强一致性并提高分辨率。广泛的实验表明，Panacea+生成的视频样本极大地促进了不同数据集上的多种任务，包括nuScenes和Argoverse 2数据集上的3D目标跟踪、3D目标检测和车道检测任务。这些结果充分证明了Panacea+是自动驾驶领域一个有价值的数据生成框架。

领域背景介绍

在自动驾驶领域，鸟瞰图感知方法近年来引起了广泛的研究兴趣，在包括3D目标检测、地图分割、多目标跟踪和3D车道检测等关键感知任务中展现出显著潜力。通常，基于视频的BEV感知方法，如StreamPETR，在这些感知任务中，特别是需要理解视频序列中物体时间一致性的跟踪任务中，往往比基于图像的方法表现出更好的性能。为了实现优越的性能，这些基于视频的方法通常需要大规模、高质量的视频数据进行训练。然而，在实际场景中，获取此类数据面临着巨大挑战。传统的手动数据收集过程不仅成本极高，而且由于安全方面的考虑，还缺乏数据多样性。例如，在极端天气条件下收集数据几乎是不可能的。

鉴于上述问题，许多研究集中于合成可行的样本来扩充现有的自动驾驶数据集。一些努力集中在根据布局生成图像数据上。其它方法则解决了更为复杂的视频数据合成任务，以支持更先进的基于视频的感知方法。例如，MagicDrive 、DriveDreamer 和 Wovogen 都是基于鸟瞰图（BEV）布局序列生成视频样本的。之前的工作Panacea ，一个基于扩散模型的视频生成模型，也针对这一具有挑战性的任务。它能够根据鸟瞰图布局序列和文本控制信号，生成与驾驶场景对齐的高保真度多视角视频，有效地促进了检测任务中的感知模型性能。

然而，在变得更加实用之前，Panacea仍有改进的空间。在实际应用中，具有高时间一致性的合成训练数据至关重要，特别是对于依赖时间建模的任务（如跟踪）而言。在这方面，Panacea仍有增强的潜力。此外，已有研究表明，使用高分辨率数据训练感知模型可以显著提升性能。然而，Panacea目前生成的样本分辨率相对较低，为256×512。使用这样的合成数据来增强感知模型会限制其潜在性能的上限。

本文介绍了Panacea+，这是Panacea的增强版。Panacea+旨在将Panacea转变为一个更强大、更实用的数据生成框架，专为自动驾驶应用而设计。在Panacea结构的基础上，Panacea+集成了多视角外观噪声先验以增强一致性，并引入了超分辨率模块以实现更高分辨率的合成，如图1所示。Panacea+包括一个两阶段视频生成模型，该模型首先合成多视角图像，然后从这些图像中构建多视角视频。为了实现有效的多视角和时间建模，Panacea+采用了分解的4D注意力机制。在训练和推理过程中，引入了多视角外观噪声先验以增强一致性。为了实现可控生成，Panacea+通过ControlNet将鸟瞰图（BEV）布局作为控制信号进行集成。此外，在生成模块之后级联了一个超分辨率模块，以提高生成样本的分辨率。这些设计使Panacea+能够合成高质量、标注完善的多视角视频样本。

此外，在多个任务和数据集上进行了广泛的实验以进行全面验证。Panacea+被应用于nuScenes 和Argoverse 2 数据集，并在包括3D对目标跟踪、3D目标检测和车道检测在内的任务上进行了评估。这些实验结果表明，来自Panacea+的视频样本显著促进了感知模型的训练，在当前一代方法中达到了最先进的性能（SOTA）。卓越的性能验证了Panacea+对自动驾驶的重要价值。

综上所述，本文的主要贡献如下：

介绍了Panacea的改进版，名为Panacea+，这是一个数据生成框架，包括一个两阶段视频生成模块，该模块具有分解的4D注意力和多视角外观噪声先验，以实现一致性的生成，以及一个ControlNet以实现可控性。此外，还采用了超分辨率模块进行高分辨率合成。这种先生成低分辨率样本再扩展到高分辨率的成本效益高的框架，对于增强基于鸟瞰图（BEV）的感知模型非常有效。

除此之外，还进行了全面的评估以验证Panacea+的有效性。在广泛的设置下进行了大量实验，涵盖了多个数据集和任务。在当前的方法中，Panacea+精化了感知模型，在跟踪任务中达到了42.7的AMOTA，在检测任务中达到了53.8的NDS，均达到了最先进的性能。这些卓越的结果表明，Panacea+是一个强大且普遍适用的自动驾驶生成框架。

Panacea+方法介绍

1）预备知识：潜在扩散模型

扩散模型（DMs）通过学习迭代地去噪正态分布噪声ϵ来近似数据分布p(x)。具体来说，DMs首先通过等式1中的固定前向扩散过程构建扩散输入xt。其中，αt和σt代表给定的噪声计划，t表示扩散时间步。然后，训练一个去噪模型ϵθ来估计从扩散输入xt中添加的噪声ϵ。这是通过最小化均方误差来实现的，如等式2所示。一旦训练完成，DMs就能够通过迭代采样xt，从随机噪声xT ∼ N(0, I)中合成新的数据x0，如等式3所示。其中，µθ和Σθ是通过去噪模型ϵθ确定的。

潜在扩散模型（LDMs）是扩散模型的一种变体，它在潜在表示空间内运行，而不是在像素空间内，从而有效地简化了处理高维数据的挑战。这是通过感知压缩模型将像素空间图像转换为更紧凑的潜在表示来实现的。具体来说，对于图像x，该模型使用编码器E将x映射到潜在空间z = E(x)。然后，可以通过解码器D将潜在代码z重构回原始图像x，即x = D(z)。LDMs的训练和推理过程与传统DMs密切相似，如等式1-3所述，只是将x替换为潜在代码z。

2）生成高质量多视角视频

模型利用一个多视角视频数据集进行训练。每个视频序列包含T帧，表示序列长度，V个不同视角，以及高度和宽度的维度H和W。Panacea+建立在Stable Diffusion（SD）之上，SD是一个强大的预训练图像合成潜在扩散模型。虽然SD模型在图像生成方面表现出色，但由于序列中不同视角和帧之间缺乏约束，其直接应用无法生成一致的多视角视频。为了同时建模时间一致性和空间一致性，采用了基于分解的4D注意力机制的UNet来同时生成整个多视角视频序列。联合扩散输入z的结构维度为H×(W×V )×T×C，其中C表示潜在维度。这个多视角视频序列是通过将帧在其宽度方向上拼接而成的，这与其固有的全景特性一致。图3（a）展示了Panacea+的整体训练框架。此外，为了获得更好的一致性，采用了多视角外观噪声先验。除了基于4D注意力的UNet之外，还使用了两阶段生成管道来大幅提升生成质量。此外，为了探索高分辨率训练对感知任务的有效性，我们将超分辨率模块集成到整体框架中。这样，我们的框架就能够合成高分辨率、高质量的视频数据，从而为感知任务提供强有力的支持。

分解的4D注意力：分解的4D注意力旨在同时建模视角和时间一致性，同时保持计算效率。它受到近期视频表示学习探索的启发，将原本内存密集型的4D联合注意力分解为更高效的结构。分解的4D注意力选择性地保留了最关键的部分：相邻视角之间的注意力和空间对齐的时间块之间的注意力。这导致了两个注意力模块------跨视角注意力和跨帧注意力------与现有的单视角空间注意力并存。

图3（b）详细展示了分解的4D注意力机制。单视角注意力保留了Stable Diffusion（SD）模型中原始空间自注意力的设计，如等式4所示。为了增强跨视角一致性，引入了跨视角注意力。观察表明，相邻视角之间的相关性至关重要，而非相邻视角之间的相关性则相对不那么重要，可以忽略不计。这种跨视角注意力如等式5所示。跨帧注意力借鉴了VLDM[36]的设计，专注于空间对齐的时间块。这一组件对于赋予模型时间感知能力至关重要，这是生成时间上连贯视频的关键因素。

两阶段pipeline：为了提升生成质量，进一步采用了两阶段训练和推理pipeline。通过绕过时间感知模块，模型还可以作为多视图图像生成器运行，从而为两阶段视频生成提供统一的架构。在训练过程中，首先训练一组专门用于多视角图像生成的权重。然后，如图3所示通过将条件图像与扩散输入拼接在一起来训练第二阶段视频生成的权重。这个条件图像仅与第一帧集成，而后续帧则使用零填充。值得注意的是，在第二阶段训练中，使用真实图像作为条件，而不是生成的图像。这种方法使训练过程在效率上与单阶段视频生成方案相当。

在推理过程中，如图4所示，首先使用第一阶段的权重来采样多视角帧。随后，使用第二阶段的权重，基于最初生成的帧来生成多视角视频。这种两阶段pipeline显著提高了视觉保真度，这一结果可归因于空间和时间合成过程的分解。

多视角外观噪声先验：为了全面增强时间一致性和视角一致性，采用了Microcinema中提出的多视角外观噪声先验方法。鉴于Panacea+是一个两阶段方法，框架允许将视频的第一帧作为条件输入来生成后续帧。为了确保后续帧与条件帧之间在内容和外观上的更好一致性，以及提高不同视角之间的一致性。将多视角第一帧图像的特征集成到后续帧的联合噪声中。设[x1, x2, ..., xN]表示视频中N个多视角帧的噪声，其中xi是跨多个视角添加到第i帧的联合噪声，且是从高斯分布N(0, I)中随机采样的。如果是第一帧的潜在特征，则训练噪声是：

其中λ是控制第一多视图帧特征量的系数。

3）生成可控驾驶场景视频

在提出的用于推动自动驾驶系统发展的"Panacea+"模型中，合成样本的可控性成为了一个关键属性。"Panacea+"集成了两类控制信号：一类是粗粒度的全局控制，包括文本属性；另一类是细粒度的布局控制，涉及BEV（鸟瞰图）布局序列。粗粒度的全局控制使得"Panacea+"模型能够生成多样化的多视角视频。这是通过将CLIP编码的文本提示集成到UNet中实现的，该方法类似于Stable Diffusion中使用的方法。得益于Stable Diffusion的预训练模型，"Panacea+"能够根据文本提示合成特定的驾驶场景。

"Panacea+"的细粒度布局控制有助于生成与标注相一致的合成样本。使用BEV（鸟瞰图）布局序列作为条件。具体来说，对于一个持续时间为T的BEV序列，将其转换为透视视图，并提取控制元素作为目标边界框、目标深度图、道路图和相机姿态嵌入。图3（d）展示了这一过程，使用不同颜色表示的不同通道来描绘这些分割元素。这产生了具有19个通道的布局控制图像：其中10个用于深度，3个用于边界框，3个用于道路图，3个用于相机姿态嵌入。然后，我们使用ControlNet框架将这些19通道的图像集成到UNet中。

值得注意的是，相机姿态本质上代表了方向向量，该向量由相机的内参和外参推导而来。具体来说，对于相机截锥空间中的每一点，可以通过内参矩阵和外参矩阵（如等式7所示）将其投影到3D空间中。

在这里，(u, v) 表示图像中的像素坐标，d 是沿着与图像平面正交的轴方向的深度，而 1 是为了方便在齐次形式下进行计算而添加的。我们选取两个点，并将它们的深度分别设置为 d1 = 1 和 d2 = 2。然后，可以通过以下方式计算对应相机光线的方向向量：

我们通过除以向量的模长来规范化方向向量，并乘以255以简单地将其转换为RGB伪彩色图像。

实验结果对比

1）数据集和评估指标

对Panacea+的生成质量和可控性进行了评估，并评估了其在nuScenes数据集和Argoverse 2数据集上对自动驾驶的益处。

nuScenes数据集。nuScenes数据集是一个公开的驾驶数据集，包含来自波士顿和新加坡的1000个场景。每个场景是一个20秒的视频，包含约40帧。它提供了700个训练场景、150个验证场景和150个测试场景，每个场景都有6个摄像头视角。这些摄像头视角相互重叠，覆盖了整个360度视野。

Argoverse 2数据集。Argoverse 2数据集是一个公开的自动驾驶数据集，包含1000个场景，每个场景长度为15秒，标注频率为10Hz。它被分为700个训练场景、150个验证场景和150个测试场景。这些数据来源于7个高分辨率摄像头，覆盖了360度视野。我们使用10个类别来评估它。

生成质量指标。利用逐帧的FID和FVD来评估合成数据的质量。其中，FID反映了图像质量，而FVD是一个时间感知指标，它同时反映了图像质量和时间一致性。

可控性指标。Panacea+的可控性通过生成的视频与条件化的鸟瞰图（BEV）序列之间的一致性来展示。为了证实这种一致性，在nuScenes和Argoverse 2数据集上评估了感知性能。对于3D目标跟踪任务，采用了如AMOTA、AMOTP和MOTA等指标。对于3D检测，在nuScenes数据集上使用了nuScenes检测分数（NDS）、平均精度（mAP）、平均方向误差（mAOE）和平均速度误差（mAVE），在Argoverse 2数据集上则使用了复合检测分数（CDS）和mAP。StreamPETR，一种最先进的基于视频的感知方法，是我们评估nuScenes的主要工具。对于Argoverse 2，使用Far3D作为我们的评估模型。对于车道检测，使用MapTR评估mAP。为了评估生成样本的可控性，使用预训练的感知模型将生成数据的验证性能与真实数据的验证性能进行比较。将训练集扩充作为性能提升策略的可能性进一步反映了Panacea+的可控性。

2）实施细节

基于Stable Diffusion 2.1实现了我们的方法。使用预训练权重来初始化UNet中的空间层，在两阶段训练过程中，第一阶段的图像权重优化了56k steps，第二阶段的视频权重优化了40k steps。对于推理，使用配置了25个采样步骤的DDIM采样器。扩散模型以256×512的空间分辨率生成视频样本，帧长为8。然后，超分辨率模块将帧在空间上放大到512×1024。训练时的外观噪声先验系数为0.05，推理阶段为0.07。为了评估，在nuScenes上使用StreamPETR进行3D检测和跟踪，其基于ResNet50骨干网络。在Argoverse 2上使用Far3D进行目标检测，也以ResNet50为骨干网络。对于车道检测，使用以R18为主干网络的MapTR。

3）量化分析

生成质量：最初采用定量指标FVD和FID来评估生成的多视角视频的质量和保真度，并将它们与自动驾驶领域图像和视频合成的最先进（SOTA）方法进行比较。如表I所示，与所有SOTA方法相比，我们的方法获得了最佳的FVD和FID分数。与图像合成方法相比，尽管我们的任务是更具挑战性的视频生成，但我们的FID仍然具有优势。例如，比MagicDrive高出0.7分。与BEVGen和BEVControl相比，也展现出显著优势。此外，与视频合成方法相比，方法也表现出色。提出的方法专注于合成具有出色时间一致性的视频样本，因此，FVD可以有效地反映样本一致性的质量。可以观察到，与前作Panacea相比，Panacea+的FVD提高了36分，表明时间一致性得到了改善。与其他SOTA方法相比，我们的方法也表现良好。例如，FVD分数比SubjectDrive低21分。与这些视频合成方法相比，在FID方面也具有优势。例如，在FVD方面略优于Drivedreamer-2，同时在FID方面实现了显著更优的改进，这表明视频的高质量。

**可控性：**利用预训练的StreamPETR来评估生成样本的可控性。在真实和合成的nuScenes验证集上测试了检测指标NDS。通过比较它们的相对性能，测量了生成样本与鸟瞰图（BEV）布局的一致性。这种一致性程度反映了视频合成的可控性。从表II中可以看出，由Panacea+合成的验证集达到了34.6的NDS，这相当于真实数据集NDS的74%。这表明生成的视频样本中有很大一部分与BEV控制信号保持一致。此外，与Panacea相比，提高了2.5分。这证明了生成视频可控性的提高，从而带来了在一致性方面的益处。因此，我们的合成数据样本有可能为下游任务，特别是与时间动态紧密相关的任务（如自动驾驶中的跟踪）提供更大的帮助。

**自动驾驶任务的增强：**鉴于我们的最终目标是辅助自动驾驶系统，将生成的样本用作感知模型的训练资源。为了确保验证的完整性，在多个下游任务上进行了实验，包括3D目标跟踪、3D目标检测和车道线检测。在这些任务中，跟踪最能反映时间一致性的重要性。所有的实验都使用了一个仅使用真实数据集训练的基线模型。然后，在训练过程中引入了等量的合成数据，以评估其带来的好处。

3D目标跟踪任务性能。如表III所示，在512×256的分辨率下，使用Panacea+生成的样本进行训练，获得的AMOTA为34.6，比仅使用真实数据训练的基线高出3.5分，代表了性能的显著提升。此外，与Panacea相比，0.9分的提升表明Panacea+确实增强了视频的一致性。此外，还探索了更高分辨率的影响，并观察到在1024×512的分辨率下，绝对性能峰值达到42.7，这比同分辨率下的基线高出5.1分，比512×256分辨率下的基线高出12.6分。这不仅表明具有更高分辨率的合成样本更有效地辅助了跟踪任务，还证明了我们的合成数据在更高的基线水平上实现了优异的相对性能。与最先进的方法相比，从表V中可以看出，Panacea+在跟踪任务中实现了最佳性能，作为合成高分辨率、高质量视频样本的整体模型，它超越了以前的方法。例如，它在AMOTA方面比DriveDreamer-2高出11.4分。这一显著优势凸显了Panacea+在生成高保真视频样本方面的卓越能力，这些样本不仅在质量上出类拔萃，还显著提升了自动驾驶中的跟踪能力。

在表V中，与当前最优方法（SOTA）的比较也展示了Panacea+的卓越性能。我们实现了53.8的MAP，超越了所有当前的自动驾驶场景生成方法。这一成就凸显了Panacea+的有效性。对于Argoverse 2数据集，还对用于3D目标检测的增强数据集训练进行了评估。从表VI可以看出，CDS和mAP分别提高了1.1和0.9个点。这表明我们的生成模型在不同数据集上也是有效的。

车道检测任务的表现。通过将道路地图控制信号集成到我们的合成样本中，显著提升了车道检测任务的性能。我们利用合成数据在nuScenes数据集上训练了先进的感知模型MapTR。如表VI所示，我们实现了6.0个点的显著改进。这一大幅提升突显了我们的模型在车道检测方面的卓越能力，表明其有可能显著改善现有感知模型的性能。

4）量化分析

生成质量。如图5所示，Panacea+展示了从鸟瞰图（BEV）序列和文本提示中生成逼真多视角视频的能力。生成的视频表现出显著的时间一致性和跨视角一致性。我们展示了八个连续帧中的所有视角，以充分展示视频样本。可以看出，Panacea+成功地合成了高质量样本，同时保持了时间一致性和视角一致性。

自动驾驶的可控性。我们从两个方面展示了Panacea+的可控性。首先是粗粒度的文本控制。图6展示了属性控制能力，展示了如何通过修改文本提示来操纵天气、时间和场景等元素。这种灵活性使我们的方法能够模拟各种罕见的驾驶场景，包括极端天气条件如雨雪，从而显著增强数据的多样性。此外，图7展示了车辆和道路如何与BEV布局精确对齐，同时保持优异的时间一致性和视角一致性，展示了Panacea+的细粒度可控性。

一些结论与限制

Panacea+是一个强大且多用途的数据生成框架，用于为驾驶场景创建可控的全景视频。该框架中融入了一个分解的4D注意力模块，以确保时间一致性和跨视角一致性，并采用多视角外观噪声先验来进一步增强一致性。此外，还采用了一种两阶段策略来提高生成质量。Panacea+擅长处理各种控制信号以生成带有精确标注的视频。此外，Panacea+还集成了一个超分辨率模块，以探索高分辨率对感知模型的好处。通过在不同任务和数据集上进行的大量实验，Panacea+已证明其能够生成有价值的视频，服务于广泛的鸟瞰图（BEV）感知领域。

局限性：Panacea+仍有很大的探索空间。目前，实验依赖于从现有数据集的标注信号中合成的视频。在未来，可以与模拟器集成或开发生成控制信号的方法。此外，由于计算成本相对较高，未来的探索可以集中在采用更高效的计算方法上。此外，模型扩展方面还有进一步研究的潜力，特别是对于使用transformer结构的扩散模型，这目前是一个有前景的方向。

#SCP-Diff

生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案

近日，来自清华大学智能产业研究院（AIR）助理教授赵昊老师的团队，联合梅赛德斯-奔驰中国，中国科学院大学和北京大学，提出了一种根据语义图生成对应图像的新方法。研究重点关注图像生成中的Semantic Image Synthesis (SIS) 任务，解决了之前方法生成图像质量较低，和语义图不够符合的问题。团队给出了"Noise Prior"的解决方案，在Diffusion推理过程中对噪声加入先验信息，这一方法简单有效，在Cityscapes，ADE20K和COCO-Stuff数据集上取得了State-Of-The-Art 的结果，并且将Cityscapes数据集上的FID值从44.5提升到10.5。

论文题目：

SCP-Diff: Spatial-Categorical Joint Prior for Diffusion Based Semantic Image Synthesis

**作者：**Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, and Hao Zhao

论文链接： https://arxiv.org/pdf/2403.09638

项目地址： https://air-discover.github.io/SCP-Diff/

1 背景介绍

Semantic Image Synthesis (SIS) 任务，是给定一张语义图，目的生成高质量的并且和这张语义图相符的图像。在自动驾驶和xx智能场景中，该任务有很重要的意义，可以让用户生成符合特定摆放要求的图像。然而，现有的方法大多是基于生成对抗网络 (Generative Adversarial Network, GAN) 的，这些方法生成的图像质量较低，不足以投入到实际应用中去。

随着Diffusion等模型的出现，生成式模型生成图像的质量得到的进一步的提升。其中以ControlNet为代表的方法，可以使得用户对生成的图像内容进行控制（比如生成符合某张语义图的图像），然而这些方法生成的图像会出现质量较差和与用户输入的控制不相符的情况，即和所期望的生成图像还有一定的差别。为了探究这个问题，我们做了一系列的实验，发现生成图像和所期望图像的差别的主要不是来源于微调过程，而是来源于训练过程和推理过程中使用的噪声分布不匹配。

为了解决训练和推理使用的噪声分布不匹配的问题，我们针对SIS任务，在推理阶段引入了空间噪声先验和类别噪声先验，使得ControlNet，FreestyleNet等以diffusion为基础的方法可以不需要重新微调即可生成更高质量的图像。**通过简单地引入噪声先验，我们在Cityscapes，ADE20K和COCO-Stuff三个数据集上的SIS任务上的指标均取得了State-of-The-Art (SoTA) 的结果。**如图1和图2所示。图1（b）中我们对真实图像和生成图像做了随机打乱，在本文的最后会公布哪一张是真实图像。图2对比了OASIS，ControlNet和我们方法的生成结果，我们方法的生成质量明显高于另外两种方法。

图1：Cityscapes上的实验结果

图2：ADE20K上的实验结果

2 先验知识与观察

2.1 先验知识

给定一张语义图，和代表语义图的高和宽，语义图的每个像素代表语义标签。Semantic Image Synthesis (SIS) 任务目标是设计一个函数，输入是语义图，输出是符合该语义图条件的RGB图像。

现有的State-Of-The-Art的方法ControlNet，在训练过程中，目标是从一个时间步的加噪的图像还原出原始图像。在时间步时刻，去噪模型可以表示为：

其中是图像经过VQGAN编码后得到的结果，，代表时间步t的累积缩放乘积。模型以等条件作为输入，预测，形式化表示为，这里代表对输入的文字的编码，代表语义图。在ControlNet模型中，一个不可训练的分支使用Stable Diffusion预训练好的权重，用来处理 , 和。同时，ControlNet复制Stable Diffusion的编码器部分用来处理，这两个分支通过零卷积层进行连接。ControlNet的损失函数定义为：

在推理过程中，ControlNet从标准正态分布采样出一个，然后从到执行反向去噪过程：

经过T步反向去噪过程后，我们能得到，经过一个VQGAN解码器后就可以得到图像。

2.2 ControlNet实验观察

简单地通过微调ControlNet会出现一些质量不好的结果，比如会出现一些奇怪的子结构，和语义图不够符合等。为了调研为什么会出现这种现象，本文在ADE20K上做了相应的分析实验，如图三所示。图三中的FID表示了生成图像和ADE20K真实图像之间的差别，棕色虚线代表ControlNet直接从标准正态分布采样然后经过步反向去噪过程的结果。黑色的折线代表从采样然后经过步反向去噪过程的结果，其中定义为：

我们可以看出，当时，从进行步的反向去噪生成的图像，要比从进行步的反向去噪生成的图像的FID有显著地降低。这个分析实验揭示出了之前很接近的假设是不可靠的。因此引入"噪声先验"对于提升以Diffusion为基础的方法在SIS任务上的性能有着重要的意义。

图3：ADE20K上的分析实验结果

3 方法

本文的方法分为两个部分：第一部分是噪声先验的准备，这一部分首先计算相应训练集图像经过VQGAN编码得到的特征图的均值和方差来构建类型噪声先验和空间噪声先验；第二部分是利用我们刚才得到的噪声先验进行推理，得到高质量的生成图像。

图4：SCP-Diff方法概览

3.1 空间噪声先验和类别噪声先验

给定数据集中的N张latent images和他们对应的语义图，我们的目标从中得到噪声先验，使得其和训练过程中得到的噪声分布一致，从而减小推理过程中的误差。

3.1.1 空间噪声先验

我们假定每一个对最后学习到的训练噪声都有相等的影响，我们定义空间噪声先验：

其中表示Hadamard乘积。为了简化问题，我们不对空间tokens之间的相关关系进行建模，而是将每个位置的spatial tokens当作独立的边际分布。在推理过程中。我们获取从时刻开始去噪的噪声可以从下面分布中采样：

我们从该分布中采样的噪声经过步反向去噪过程后，经过一个VQGAN解码器即可得到高质量图像。

对于空间先验的作用，本文进行了一个案例研究，如图5所示。从图中分析可知，使用空间先验的模型在构建场景布局时表现出更广泛的感受野，而使用普通先验的模型则迅速将注意力集中在狭窄的局部区域。这种差异揭示了为什么使用空间先验的模型能够生成完整的场景，并且减少了奇怪的子结构，而使用标准正态分布的模型的输出则更像是根据相似形状的模板进行裁剪和粘贴对象。

图5：Spatial Prior的Case Study

3.1.2 类别噪声先验

尽管空间先验的方法在全局关注整个场景方面取得了成功，但在融入类别信息方面仍显不足。比如上图2中，会在天空中生成不符合语义类别标签的建筑物。本文认为这是空间噪声先验和ControlNet的控制分支有一定程度的不兼容导致的（因为空间噪声先验融合了不同类型模式的先验）。这种不匹配会沿着去噪轨迹累积，使得去噪过程进一步地偏离预定轨迹。

因此，我们引入了基于类别的噪声先验。首先，我们通过最近邻下采样语义图到。接下来，对于N张reference images，我们为其个类别中的每一类各自创建了一个独立的集合，每个集合中包含维度为的tokens。接下来，我们为每一类计算其tokens的均值和方差，得到：

的定义和上面的是一样的。

为了证明类别噪声先验的作用，本文进行了一个案例研究，如图6所示。我们发现从类别噪声先验开始反向去噪过程可以在图像中物体形成阶段增强对语义标签的理解能力，比如图6（b）中图像生成中我们使用"Tree"类别来query score map，加入类别噪声先验的方法会将更多的注意力放到"Tree"真正应该在的区域，而不会像ControlNet一样分散。

图6：Categorial Prior的Case Study

3.2 联合先验

为了融合空间噪声先验和类别噪声先验的优点，我们提出了联合先验（Joint Prior）。联合先验的计算过程可以表示为，对于N张reference图像，我们用不同的几何来存储在特定位置特定类别的先验信息，具体的，对于，，，，我们可以得到：

当给定对应的sample size过小时，我们认为估计是不准确的，我们使用类别先验。的定义同空间先验。

3.3 反向去噪步数的影响

在理想情况下，去噪时间步长的系数需要进行仔细地调整。较小的意味着向计算出的先验中注入较低水平的噪声，从而减少所需的去噪步骤数量，并加快推理过程。然而，在联合先验的框架下，由于我们将来自不同空间位置和类别的编码标记视为独立变量而忽略它们之间的相关性，需要更多的自注意力机制来逐步将边际统计转变为联合建模，因此需要更多的去噪步骤。我们在实验中也对的值做了一系列的消融实验，具体可见4.3.1。

4 实验

4.1 实验设置

我们在Cityscapes，ADE20K和COCO-Stuff三个数据集上进行了实验。为了评估我们生成的图像，我们使用了（1）平均交并比（mean Intersection-over-Union, mIoU）和像素准确率（Pixel Accuracy, Acc）来评估我们生成的图像和语义图的相符程度。（2）Fréchet inception distance（FID）来衡量生成图像的质量（3）LPIPS和MS-SSIM来衡量生成图像的丰富性（4）用户测试（User Study）来衡量我们的生成结果。

我们使用张图像来计算噪声先验。对于Cityscapes和ADE20K数据集，他们各自的噪声先验被应用在已经在这两个数据集微调好的ControlNet的推理过程中。微调过程在A100 80G GPUs上进行，使用的batch size大小为，使用的学习率微调步，原始Stable Diffusion的解码分支中的参数在微调过程中也会进行调整。对于COCO-Stuff数据集，我们将我们的方法应用在已经微调好的FreestyleNet模型中，我们使用官方提供好的checkpoint。

4.2 主实验结果

4.2.1 不同类型的噪声先验的比较

我们定性和定量地比较了不同噪声先验对于SIS生成效果的影响，结果如表1和图7所示。其中Normal Prior代表从标准正态分布进行反向去噪过程。表1显示，联合先验在图像质量（FID）和与提供的语义图的一致性（mIoU 和 Acc）方面，优于ControlNet所使用的标准正态分布先验。其中mIoU 提升了 2.78，FID 显著降低了12.82。仔细观察生成的图像可以发现，尽管 ControlNet相较于 OASIS 更擅长生成边缘柔和且模糊效果较少的图像，但它在场景布局组织方面表现不佳，往往无法正确地和提供的语义图对齐，例如将建筑物错误地放置在天空区域。相比之下，我们提出的联合先验解决了这些问题，显著提升了图像的真实感。

表一：不同噪声先验的实验结果

图7：不同噪声先验的实验结果

4.2.2 和SoTA模型的比较

与SIS领域的最新进展相比，我们提出的联合先验（或 SCP-Diff）有显著地效果提升。如表2所示，ControlNet 通过将生成建模的重点从像素空间转移到隐空间，已经显著超越了早期的方法，得益于其合成高分辨率图像的能力。我们的方法通过解决扩散模型推理过程中，使用的噪声分布和实际不同的问题，进一步放大了这一优势，从而在 Cityscapes和 ADE20K 数据集上取得了SoTA结果 。在COCO-Stuff 数据集上，我们将提出的联合先验应用于FreestyleNet方法上，也取得了 FID 值降低 3.1的性能提升。

表二：和SoTA方法的对比

4.3 消融实验结果

4.3.1 对去噪步数的研究

通过减小中的，其中 μ，我们可以优化传统上耗时的Stable Diffusion的采样方法。如第3.3节中所讨论的，我们进行了实验观察对生成结果质量的影响。从图8可以看出，对于两个数据集，最佳的选择在之间。图8中两条曲线中观察到的趋势模式相似，表明在应用噪声先验时具有一定的稳健性。

图8：对去噪步数的研究

4.3.2 对生成图像的多样性的研究

参考 OASIS的方法，我们通过分析从同一标签图生成的一组图像（称为一个批次）中的变化来判断生成图像的多样性，我们使用 MS-SSIM 和 LPIPS 来作为评估指标。在实验中，我们为每个标签图生成20张图像，计算这些图像之间每对之间的平均指标，然后将这些分数在所有标签图上取平均。从表3的结果可以看出，我们的联合先验相比ControlNet的多样性评分略有降低。这一结果是可以预见的，因为在推理过程中引入先验本质上是在多样性与提高质量之间寻求平衡。

表三：生成图像多样性的研究

4.3.3 对Reference Images数量的研究

为了研究Refercence Images数量的影响，我们在图9中进行了消融实验。图9中显示，随着样本数量的增加，FID逐渐降低。即使参考图像的数量有限，FID分数仍显著低于原始ControlNet。此外，为了检验样本多样性是否有帮助，我们使用CLIP图像编码器（ViT-B/32）对10,000张图像进行编码，并在特征空间内进行最远点采样。我们选择了距离最大的100张图像，并使用这些图像来计算联合先验。图9中的散点图显示，图像的多样性确实有助于最终图像质量的提升。

图9：Reference Images数量的研究

4.3.4 User Study

参考 ControlNet的方法，我们进行了User study，邀请参与者分别对由三种方法生成的500组图像（见表4）进行排名，依据"显示图像的质量"和"与给定语义标签的一致性"两个标准进行评价。我们采用平均人类排名（AHR）作为衡量用户偏好的指标，参与者在1到3的范围内对每个结果进行评分，3分为最佳。根据表4中的平均排名，用户明显更倾向于我们方法生成的结果。

表四：User Study结果

5 总结

在本文中，我们通过引入推理噪声先验，解决了在微调ControlNets用于语义图像合成（SIS）任务时的图像质量较低与和语义图不一致的问题。我们的SCP-Diff表现出很好的性能，在Cityscapes，ADE20K和COCO-Stuff数据集上都实现了SoTA。我们希望我们的工作和高质量生成的图像能够为研究界的未来工作提供灵感。

#FastDriveVLA

面向量产VLA！即插即用剪枝模块，推理加速近4倍

近年来，端到端自动驾驶研究进展神速，各家也都在如火如荼的宣传自家的端到端方案。与传统模块化方案（感知→预测→规划）不同，端到端方法在同一个模型中完成全部感知到规划的过程，有效减少了不同模块之间的信息损失，也从某种角度简化了系统架构。但是技术的进步不止于此，随着视觉-语言大模型（VLM）在视觉问答任务中展现出令人称奇的推理能力，很多研究人员及算法团队开始将其扩展至xxx智能和自动驾驶领域，通过引入动作生成功能，形成了视觉-语言-动作（VLA）模型。相较传统模块化方案，VLA 模型在复杂场景理解与决策方面表现更优，已经被越来越多的端到端自动驾驶系统采用。

论文链接：https://www.arxiv.org/pdf/2507.23318

不过，VLM/VLA 模型通常将输入图像编码为大量视觉，会带来高昂的计算开销与推理延迟，在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题，现有研究主要从两个方向进行视觉 token 剪枝：

注意力机制导向方法
依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短，提供的监督信息有限，导致剪枝效果不佳。
相似度导向方法
通过度量视觉 token 间的冗余度进行去重。驾驶场景通常包含明确的前景区域（车道、车辆、行人等），此类方法易误删关键前景 token 而保留无关背景 token，难以满足任务需求。

针对上述的局限性 (参考图 1)，作者提出 FastDriveVLA ------一种面向自动驾驶场景的重建式视觉 token 剪枝框架。其核心思想来源于人类驾驶行为：驾驶员主要关注与决策直接相关的前景区域，背景区域几乎对驾驶决策没什么影响。因此，保留编码前景信息的 token 即可在保证性能的同时显著降低计算成本。

FastDriveVLA 包含一个即插即用的剪枝器 ReconPruner ，通过 MAE 风格的像素重建任务进行训练，使模型能够聚焦于前景区域并为包含关键信息的 token 赋予更高显著性分数。为防止模型陷入"所有 token 都高分"的退化解，作者进一步引入对抗式前景-背景重建策略：在利用高分 token 重建前景的同时，强制低分 token 重建背景，从而增强模型对前景与背景的区分能力。

训练完成后，ReconPruner 可直接嵌入任何共享相同视觉编码器的 VLA 模型，无需重新训练。为支持 ReconPruner 的训练，作者构建了大规模数据集 nuScenes-FG，基于 nuScenes 并使用 GroundedSAM 进行前景分割标注，共计 24.1 万张图像-mask 对，涵盖六个车载摄像头视角。

总结来看，本文贡献如下：

提出面向自动驾驶的重建式视觉 token 剪枝框架 FastDriveVLA；
设计即插即用剪枝器 ReconPruner，并引入对抗式前景-背景重建策略；
构建并发布 nuScenes-FG 数据集，提供细粒度前景分割标注；
在 nuScenes 闭环规划基准上取得 SOTA 结果，验证方法有效性与实用性。

相关工作端到端自动驾驶

传统自动驾驶系统遵循感知、预测、规划的分模块 pipeline。与之相比，端到端方法尝试在单一网络中直接学习从原始传感器输入到控制指令的映射。早期 PilotNet 用卷积网络证明了这一思路的可行性，但随后的行为克隆方法遭遇了因果混淆与协变量偏移等难题。为缓解上述问题，后续研究引入高层导航指令作为条件（CIL），或采用 Transformer 架构融合多模态传感器信息（TransFuser）。近期，SOLVE、OpenDriveVLA 等工作进一步结合大模型，在复杂场景下同时提升性能与可解释性。

驾驶视觉-语言-动作（VLA）模型

大语言模型（LLM）的兴起催化衍生了 VLA 模型，其目标是通过自然语言增强车辆的推理能力与长尾场景处理能力。DriveGPT4 率先将 LLM 用于运动规划与车辆控制；随后，OpenDriveVLA、Impromptu VLA 等开源方案展示了如何在大规模数据上训练可直接输出细粒度控制量的 VLA 模型。为支持这类数据驱动方法，OmniDrive 等数据集提供了丰富的视觉-语言标注及反事实场景，助力模型理解复杂驾驶环境。

视觉 Token 剪枝

现有 VLM/VLA 模型将图像编码为大量视觉 token，导致高昂计算开销。近期研究探索了无需重训的即插即用剪枝策略，大致分为两类：

注意力机制法（FastV、SparseVLM）：利用文本 token 对视觉 token 的注意力打分进行筛选。然而，驾驶任务中的文本提示通常简短且固定，难以提供足够指导，剪枝效果受限。
相似度法（VisPruner、DivPrune）：通过度量 token 间冗余度进行多样性采样。但驾驶场景前景区域明确，此类方法易误留背景 token，影响任务性能。

与上述方法不同，本文提出的 重建式剪枝 以"能否重建关键前景"作为 token 重要性判据，更契合自动驾驶任务特性，且无需依赖文本或简单相似度度量。

方法论nuScenes-FG 数据集

受人类驾驶行为的启发，作者首先将自动驾驶场景中的 "前景" 定义为包含人、道路、车辆、交通标志（含交通灯）以及交通障碍物（位于道路或路侧、可能影响驾驶的物体）的区域；其余区域------如建筑物、天空、路边树木------则被视为背景，即便被完全遮挡，也几乎不影响人类驾驶决策。

nuScenes 原始数据集为人与车辆提供了 3D 边界框标注，但由于轴对齐的边界本身较为粗糙，不可避免地会引入大量无关背景。虽然后续发布的地图扩展包包含 11 个语义标注，但仍无法全面覆盖所有相关区域。为此，作者使用 Grounded-SAM 对整个 nuScenes 场景进行一致且精细的前景分割，最终得到 nuScenes-FG 数据集。该数据集共包含 24.1 万张图像-掩码对，覆盖六个车载摄像头视角，示例见图 2。

ReconPruner：基于重建的剪枝器

作者提出一种新颖且轻量级的即插即用剪枝器 ReconPruner，通过像素级重建任务进行训练。其整体架构如图 3 所示，由 PrunerLayer 与 Scorer 两部分组成：

PrunerLayer 直接采用 Qwen2.5-VL-3B 的一个解码层；
Scorer 是一个单层前馈网络，权重形状为，其中表示隐藏状态维度。

ReconPruner 整体参数量仅为 0.07 B，极其轻量。

前向流程

在训练与推理阶段，作者引入一个可学习的查询 token ，用于捕获前景区域视觉 token 的显著性。查询 token 与视觉 token 序列一并输入 PrunerLayer，生成更新后的查询与视觉 token：

随后，将与进行 Hadamard 乘积，并送入 Scorer，得到每个视觉 token 的显著性分数：

MAE-风格前景重建

为了使 ReconPruner 能够准确识别并保留包含关键前景信息的视觉 token，作者借鉴掩码图像建模（MIM）方法，设计 MAE-风格的像素重建策略。训练时，依据 ReconPruner 预测的显著性分数，选取分数最高的子集视觉 token，用于被遮挡前景区域的重建。该重建损失作为监督信号，促使 ReconPruner 为真正对应前景内容的 token 赋予更高的显著性分数。

对抗式前景-背景重建策略

Adversarial Foreground-Background Reconstruction Strategy

仅仅依靠前景重建可能导致退化解，即 ReconPruner 将所有视觉 token 均赋予高显著性分数，从而提升重建性能。为了解决这一问题，作者借鉴生成对抗网络（GAN）的思想，提出 对抗式前景---背景重建策略。具体而言，ReconPruner 还需利用被赋予低显著性分数的视觉 token 对背景区域进行重建。通过施加这一互补的约束，模型被有效抑制为所有 token 统一赋予高分，从而促使模型更精确地区分前景与背景 token，进而提升 token 选择的准确性。

整体训练流程如下：

首先，根据 ReconPruner 预测的显著性分数生成二元掩码，其中每个元素定义为：

由于不可导，直接对视觉 token 应用掩码会在反向传播时阻断梯度流动。为此，作者采用 Straight-Through Estimator（STE）技术，在前向传播时使用离散掩码，而在反向传播时使用连续近似，从而允许梯度顺利传递。该操作形式化为：

随后，作者利用近似掩码保留高显著性视觉 token，并将低显著性视觉 token 替换为填充 token（通常为全零），从而得到前景视觉 token 。类似地，通过取反获得背景视觉 token 。该过程形式化为：

重建解码器由六个 Qwen2.5-VL-3B 解码层和一个前馈重建头组成。作者将与分别输入重建解码器，获得重建后的前景图像和背景图像，即：

训练损失

为兼顾像素级精度与感知一致性，重建损失采用 MSE 与 SSIM 的加权组合：

其中。总体损失为：

推理阶段的剪枝

推理阶段，ReconPruner 为个视觉 token 计算显著性分数。给定目标剪枝比例，保留显著性最高的个 token：

为保持空间语义，同时保留对应的位置编码。随后，将选中的视觉 token 与文本 token 联合送入大语言模型以预测最终动作：

实验及结果

实验设置

模型

作者选用当前最先进的端到端 VLA 模型 Impromptu-VLA 作为基线，其结构基于 Qwen2.5-VLs。由于原始训练冻结了视觉编码器，因此其参数与 Qwen2.5-VL 完全一致。重建任务本身是非因果的，所以作者在 ReconPruner 及重建解码器中均将因果注意力替换为全注意力。

数据集与评测指标

在 nuScenes 上进行评估。该数据集包含 1 000 段城市驾驶场景，每段约 20 秒。按照 Impromptu-VLA 的官方评测协议，共使用 6 019 条测试样本。沿用先前工作，作者采用三项开环规划指标：轨迹预测的 L2 误差、碰撞率、与道路边界的交叉口率

基线方法

注意力类：FastV、SparseVLM
相似度类：VisPruner、DivPrune

训练配置

FastDriveVLA 以 2e-5 的学习率、余弦调度器训练 10 个 epoch，整个过程在 2 张 H800 GPU 上仅需 3 小时。

nuScenes 评测结果

输入图像分辨率 1596×1596，共 3249 个视觉 token。作者评估 25 %、50 %、75 % 三种剪枝比例；由于驾驶任务对安全性要求极高，所以并没有采用更激进的剪枝率。

基于上述的结果表格，总结如下：

在 25 % 剪枝比例下，FastDriveVLA 在所有指标上均优于现有方法，且在 L2 与碰撞率上超过未剪枝基线（分别提升 0.1 % 与 1.0 %）。
50 % 剪枝比例下，各项指标取得更均衡的表现，推荐实际部署时采用该比例。
75 % 剪枝比例下，由于碰撞率与交叉口率绝对值较小，受噪声影响出现轻微波动，但 FastDriveVLA 仍保持领先。

消融实验

表 2 分别考察了像素重建与对抗式前景-背景重建（AFBR）策略对方法性能的贡献：

仅使用前景掩码预测（去除像素重建）时，所有指标均下降。原因在于掩码预测目标仅区分前景/背景，无法对前景内部的复杂对象赋予差异化权重。
仅使用前景像素重建（去除 AFBR 策略）时，剪枝性能显著恶化，说明缺乏对抗监督时，ReconPruner 难以有效区分前景与背景内容。
两者结合（像素重建 + AFBR）在所有指标上均取得最佳结果，验证了二者缺一不可。

与前景掩码剪枝的对比

为了以重建方式实现视觉 token 剪枝，一种直观的思路是：将前景掩码直接下采样到视觉 token 的空间分辨率，并在对应位置进行 token 保留或丢弃。然而，该方法面临两大挑战：

掩码仅提供二元信息，无法量化单个视觉 token 的显著性，因而无法按任意比例灵活排序与剪枝；
空间对齐误差，已有研究（Darcet et al. 2023）表明，视觉编码器生成的 token 位置与原始图像块之间常存在空间错位，直接使用掩码会导致错误剪枝。

为对比基于前景掩码的剪枝方法，作者采用文本注意力估计 token 显著性，并优先保留位于前景掩码区域内的 token；同时设置仅依赖文本注意力的基线。表 3 结果显示，前景掩码指导的剪枝显著优于纯文本注意力剪枝，表明前景视觉 token 更具信息量。然而，该方法仍不及 FastDriveVLA，且使用 Grounded-SAM 生成单张图像的前景掩码耗时约 3 秒，实时部署代价过高。

效率分析

为了验证 FastDriveVLA 的推理效率，作者对比了不同剪枝方法在 FLOPs 与 CUDA 延迟上的差异。如表 4 所示，当视觉 token 数量从 3249 条减少至 812 条时：

FLOPs ：FastDriveVLA 降低约 7.5×；
Prefill 延迟 ：减少 3.7×；
Decode 延迟 ：减少 1.3×。

尽管 ReconPruner 引入了少量可学习参数，导致 FLOPs 略高于部分无参数方法，但其轻量级设计仍使 CUDA 延迟低于若干同类方案，显著提升了实际部署的推理效率。

可视化结果

为直观验证重建式剪枝的有效性，作者展示了前景与背景重建的可视化结果。如图 4 所示，ReconPruner 能够精确保留与前景物体相关的 token，并清晰区分背景区域，在显著降低 token 冗余的同时，仍能高质量地重建关键视觉信息。

进一步对比不同剪枝方法所保留的 token（图 5）：

FastV（注意力法）容易遗漏车辆；
DivPrune（相似度法）保留了更多分散 token，但对车道区域关注不足；
FastDriveVLA（本文方法）则完整保留了车道区域，并有效聚焦于车辆与交通标志，验证了重建式剪枝的优越性。

总结

作者提出了一种全新的重建式视觉 token 剪枝框架 FastDriveVLA ，相比传统的注意力导向与相似度导向剪枝方法，更适用于具有明确前景区域的自动驾驶任务。通过 MAE 风格的像素重建任务，作者训练出即插即用的 ReconPruner，并进一步引入对抗式前景--背景重建策略，增强其对前景 token 的辨识能力。此外，作者构建了包含 24.1 万张前景分割掩码的大规模自动驾驶场景数据集 nuScenes-FG，可为后续研究提供通用基准。总体而言，本工作不仅为 VLA 模型的高效推理提供了新的剪枝范式，也为面向特定任务的 token 剪枝策略提供了借鉴意义。

#7DGS 炸场

一秒点燃动态世界！真实感实时渲染首次"七维全开"7DGS 炸场：一秒点燃动态世界！真实感实时渲染首次"七维全开"

具有复杂视角相关效果的真实感动态场景渲染在计算机视觉与图形学中仍然具有挑战性。示例包括来自真实 CT 扫描的动态心跳可视化以及日照周期中伴随吸收与散射效应的云层过渡。合成动态场景的新视角对于虚拟现实、增强现实、内容创作与数字孪生等众多应用至关重要。尽管在静态场景重建与渲染方面，通过神经辐射场（NeRF）以及最近的 3D 高斯溅射（3DGS）已取得显著进展，但实现高质量、实时的具有视角相关效果的动态场景渲染仍面临巨大的计算与表征挑战。

核心难点在于同时建模三个基本方面：1) 空间几何，2) 时间动态，3) 视角相关外观。每个维度都带来独特挑战。空间建模必须捕捉不同尺度下复杂的场景几何；时间建模必须表示刚性与非刚性运动，可能涉及复杂形变；视角相关建模需要捕捉复杂的光传输效应，如散射、各向异性反射与半透明性。当同时考虑时，由于它们之间的相互依赖性，挑战变得更加复杂------例如，移动物体上的镜面高光会随时间根据视角与物体位置的变化而改变外观。

本文提出 7D 高斯溅射（7DGS），一个用于具有视角相关效果的动态场景实时渲染的统一框架 。我们的核心洞察是将场景元素建模为跨越空间位置（3D）、时间（1D）和视角方向（3D）的 7 维高斯。这一高维表示自然地捕捉几何、动态与外观之间的相互依赖性，使得能够更准确地建模移动镜面高光与时间变化的各向异性反射等复杂现象。

，时长00:16

论文标题：7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting

项目主页： gaozhongpai.github.io/7dgs/

主要贡献：

统一高维表征：我们提出了一种新颖的 7D 高斯模型，共同编码空间结构、时间演化与视角相关外观。此外，我们开发了自适应高斯细化技术，实现对复杂形变与时间变化外观的更准确建模。
高效条件切片：通过推导原则性的条件切片机制，我们的方法将高维高斯投影为与现有实时渲染流程兼容的 3D 高斯，确保效率与保真度。
验证：大量实验表明，7DGS 在具有复杂视角相关效果的挑战性动态场景中，以 4DGS 最高 7.36 dB 的 PSNR 优势优于先前方法，并保持超过 401 FPS 的实时渲染速度。

预备知识

3D 高斯溅射

3DGS 将场景表示为各向异性 3D 高斯的集合。每个高斯由均值向量（指定其空间位置）和协方差矩阵（编码高斯的范围、形状与方向）定义。实践中，协方差分解为：

其中为对角缩放矩阵，为使高斯与全局坐标系对齐的旋转矩阵。此分解为局部几何提供了直观且紧凑的表示。

除几何外，每个高斯具有不透明度与视角相关颜色信息。颜色通过球谐函数建模：

其中为谐波阶数（通常为 3），表示视角方向，为可学习系数，为球谐基函数。此表示使模型在不同视角下捕捉复杂外观变化，同时通过高效光栅化保持实时渲染能力。

6D 高斯溅射

尽管 3DGS 在静态场景渲染方面表现出色，但它未考虑由视角相关效果引起的外观变化。为克服此限制，6DGS 通过纳入方向信息扩展 3D 表示。在 6DGS 中，每个场景元素建模为定义在联合空间上的 6D 高斯：

其中表示空间坐标，编码方向分量。交叉协方差捕捉位置与方向之间的相关性，使高斯能够编码视角相关外观变化。

为保证数值稳定性并确保正定性，完整的 6D 协方差通过 Cholesky 分解参数化：

其中为对角元素强制为正的下三角矩阵。对于给定视角方向渲染图像时，6D 高斯以为条件，得到空间分量的条件 3D 高斯。具体而言，条件分布为：

其中

此外，每个高斯的不透明度被调制以反映当前视角方向与高斯优选方向之间的对齐：

其中为正比例参数，控制调制的灵敏度。此机制增强了模型捕捉镜面高光与各向异性反射等视角相关效果的能力。然而，3DGS 和 6DGS 本质上均为静态场景设计，因为它们不包含时间动态。

具体方法

我们引入 7D 高斯溅射（7DGS），一个联合建模空间、时间与角度维度的统一框架。在 7DGS 中，每个场景元素表示为 7D 高斯，自然地捕捉场景几何、动态与视角相关外观。通过用额外的时间维度扩展高斯表示，7DGS 无缝整合空间、时间与角度变化，在保持高效实时渲染与准确视角相关效果的同时，鲁棒地处理动态场景。

1.7D 高斯表征

在 7DGS 中，每个场景元素建模为 7D 高斯随机变量，共同编码其空间、时间与方向属性。此统一表示自然地捕捉场景几何、动态与视角相关外观。形式上，++我们定义 7D 高斯如下++：

其中：

表示空间坐标，均值与协方差建模局部几何形状。
为标量，捕获时间坐标，均值与方差考虑场景元素的动态演化。
编码方向（角度）信息，均值与协方差对建模视角相关效果至关重要。

非对角块、与捕捉空间、时间与方向分量之间的相关性，使高斯能够跨这些维度建模复杂的相互依赖性。

受 6DGS 启发，我们使用 Cholesky 分解参数化完整的 7D 协方差矩阵：

其中为对角元素为正的下三角矩阵。此重参数化不仅在优化期间保证有效协方差矩阵，还便于高效计算。

对于颜色表示，我们延续 3DGS 的视角相关球谐公式，不引入额外的时间依赖性，因为动态信息已编码在高斯参数内。

2.条件切片机制

为了在指定时间与给定视角方向渲染图像，我们对每个 7D 高斯以观测到的时间与角度值为条件。此操作"切片"完整的 7D 高斯，产生仅控制空间分量的条件 3D 高斯。这样的条件处理至关重要，因为它使我们能够高效地将时间动态与视角相关效果整合到传统 3D 渲染流程中。

我们首先将协方差矩阵划分为两部分：对应时间与方向维度，将空间维度与组合的时间-方向空间联系起来：

利用多元高斯分布的标准性质，给定与时空间分量的条件分布也是高斯：

条件均值与协方差为：

为进一步细化渲染，我们根据观测到的时间与视角方向偏离高斯期望值的程度调制每个高斯的贡献。我们定义两个独立的调制因子：

其中与为正标量参数，控制时间与方向调制的灵敏度。随观测时间偏离期望时间呈指数衰减，衰减率由控制。类似地，随视角方向偏离优选方向而减小。

高斯的最终条件不透明度通过将基础不透明度与两个调制因子相结合来计算：

此公式确保当当前时间或视角方向远离其期望值时，高斯对渲染图像的贡献减小，从而有效地将时间动态与视角相关外观整合到渲染过程中。

3.自适应高斯细化

虽然 7DGS 中的条件切片机制根据当前时间与视角方向调整空间均值并调制不透明度，但每个高斯的内在形状（由其协方差确定）随时间保持静态。此限制可能阻碍对复杂动态行为（如非刚性形变或运动引起的形状变化）的表示。为了解决此问题，我们引入自适应高斯细化，通过轻量级神经网络计算的残差修正动态更新高斯参数。

具体而言，我们首先构造一个综合特征向量，封装每个高斯的几何与时间上下文。该特征向量通过连接空间均值、时间坐标、方向均值以及高频时间编码形成：

其中表示向量连接。时间编码定义为：

其中。此多频编码提供了时间的丰富表示，捕捉低频趋势与高频细节。

接下来，我们采用一组小型两层 MLP（架构为）预测关键高斯参数的残差调整。这些残差被添加到原始参数中以产生细化的估计：

其中表示 7D 协方差矩阵的向量化下三角元素，、、与为相应 MLP 预测的残差。这些更新允许空间位置、时间坐标、方向均值与协方差（控制旋转与形状）作为观测时间的函数动态调整。

此细化模块在条件切片步骤之前应用。通过动态调整 7D 高斯参数，后续条件处理产生一个 3D 高斯，其空间属性（包括形状与方向）更准确地反映演化的场景动态与视角相关变化。这导致对复杂运动的改进建模与动态场景更忠实的重建。

4.优化与渲染流程

我们的优化策略将 3DGS 的自适应高斯致密化框架扩展到 7DGS 的丰富时空角度域。在我们的方法中，每个高斯通过克隆与分裂操作动态调整，确保在空间、时间与方向维度上的全面覆盖。

为引导这些细化操作，我们首先从条件协方差矩阵（在观测到的时间与视角方向条件处理后获得）中提取尺度与旋转信息。我们执行奇异值分解：，其中为正交矩阵，为包含奇异值的对角矩阵。然后我们将旋转矩阵定义为，并计算尺度向量。为确保表示右手坐标系，我们调整其最后一列：。

对于高斯分裂，7DGS 除空间梯度外还利用时间线索。我们使用非对角块的幅值量化时空相关性，该块捕捉空间与时间分量之间的相互作用。当该相关性超过阈值 0.05（相对于屏幕范围）且归一化时间尺度（源自）大于 0.25 时，对应的高斯被分裂。此标准确保具有显著运动动力学的区域被密集表示。

渲染流程与 3DGS 保持完全兼容。在我们的方法中，7DGS 表示首先通过条件切片机制转换为 3DGS 兼容格式。然后使用标准透视投影将所得条件 3D 高斯的均值与协方差投影到图像平面，产生一组 2D 高斯。这些 2D 高斯随后通过可微光栅化例程溅射到图像画布上，最终像素颜色通过深度感知、不透明度混合的方式聚合所有高斯的贡献来计算。

重要的是，我们的 7DGS 框架与现有 3DGS 训练流程无缝集成。我们采用相同的损失函数、优化器与超参数设置------唯一的修改是增加最小不透明度阈值用于修剪，以补偿时间与视角方向对条件不透明度的调制。通过将我们的 7D 表示转换为条件 3D 格式，我们充分利用 3DGS 的自适应密度控制与高效光栅化技术，从而以最小的修改实现增强的性能。

实验

1.实验设置

数据集 我们在三个不同数据集上评估 7DGS：

D-NeRF：一个合成单目视频数据集，包含八个场景，分辨率为。0
Technicolor：一个野外数据集，由同步相机阵列捕获的视频记录组成，分辨率为。
7DGS-PBR：我们的自定义数据集，使用基于物理的技术渲染，由六个具有复杂视角相关效果的动态场景组成：

heart1 与 heart2：源自真实 CT 扫描，这些场景捕捉 15 个时间戳的心脏周期。
cloud：基于迪士尼动画工作室体积云数据集，此场景具有跨越 60 个时间戳的完整日照周期。
dust 与 flame：源自 Blender Market，这些场景分别在 79 与 101 个时间戳呈现动态体积效果。
suzanne：标准 Blender 测试网格，使用半透明"玻璃 BSDF"材质渲染，在 60 个时间戳显示果冻状形变。

对于每个时间戳，我们分别为 heart1、heart2、cloud、dust、flame 与 suzanne 采样 300、60、20、10、10 与 10 个视角，遵循 9:1 的训练-测试分割。所有场景使用 Blender 的 Cycles 引擎渲染，分辨率分别为 heart1 的与其余场景的。

评估指标 我们使用三个图像质量指标评估我们的方法：峰值信噪比（PSNR）、结构相似性指数（SSIM）与 LPIPS。对于效率，我们报告高斯点数、渲染速度（FPS）与训练时间（分钟）。

2.实验效果

总结

本文提出了 7DGS，一个通过单一 7D 高斯表示将空间、时间与角度维度统一用于动态场景渲染的新颖框架 。我们的条件切片机制高效地将 7D 高斯投影到可渲染的 3D 高斯，实现高质量结果与实时性能。

跨三个数据集的实验表明，7DGS 以高达 7.36 dB 的 PSNR 优于最新技术，同时使用显著更少的高斯点数，并保持超过 400 FPS 的渲染速度（无自适应细化）。我们的方法在具有复杂视角相关效果的场景上表现特别出色，推动该领域朝着统一且高效的动态场景渲染发展。

#ReCogDrive

自动驾驶新范式，华科&小米开源首个VLA+RL方案

在自动驾驶领域，端到端（End-to-End）系统正成为研究热点，旨在将感知、预测、规划等模块整合为统一的流水线，以实现更流畅、更安全的驾驶。然而，现有端到端系统在面对稀有场景和长尾分布数据时，性能往往会显著下降。近期，视觉-语言模型（Vision-Language Models, VLM）凭借其丰富的世界知识和强大的泛化能力，被引入自动驾驶领域，但仍面临领域鸿沟、离散语言空间与连续动作空间不匹配等挑战。

本文将深入解读一篇题为《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》的最新研究。该论文提出了一种名为 ReCogDrive 的自动驾驶系统，它巧妙地将 VLM 与扩散规划器（Diffusion Planner）相结合 ，并通过 强化学习（Reinforcement Learning, RL）进行增强，旨在解决现有方法的局限性，实现更安全、更类人、更稳定的驾驶轨迹。ReCogDrive 这个名字可以理解为"认知驱动"，强调了其通过 VLM 带来的认知能力来驱动自动驾驶决策的核心思想。

论文基本信息

论文标题：ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
作者：Yongkang Li, Kaixin Xiong, Xiangyu Guo, Fang Li, Sixu Yan, Gangwei Xu, Lijun Zhou, Long Chen, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Xinggang Wang
机构：华中科技大学，小米汽车
论文地址：https://arxiv.org/abs/2506.08052
项目主页 ：https://xiaomi-research.github.io/recogdrive
代码仓库 ：https://github.com/xiaomi-research/recogdrive （近期刚刚开源）

研究背景与意义

自动驾驶的核心任务是预测平滑、舒适且无碰撞的未来轨迹。尽管端到端自动驾驶系统在开放式评估中表现出色，但它们在数据有限且驾驶条件偏离训练场景的长尾场景中，泛化能力往往不足。

当前，将 VLM 应用于自动驾驶面临以下挑战：

领域鸿沟：VLM 通常在互联网图像-文本数据集上预训练，这些数据集缺乏驾驶特定场景和知识的覆盖。
维度不匹配：离散的语言空间与连续的动作空间之间存在显著差距，导致轨迹生成不连贯或无效。
模仿学习的局限性：大多数现有方法严重依赖模仿学习（Imitation Learning），这倾向于记忆训练数据并优化平均行为，可能导致次优甚至危险的轨迹。

为了克服这些限制，ReCogDrive 提出了一种新颖的端到端自动驾驶系统，它将 VLM 的认知能力与强化学习增强的扩散规划器相结合，以生成平滑、连续的轨迹。

主要研究内容与方法

ReCogDrive 采用了一个 三阶段训练范式，旨在将 VLM 的强大泛化能力与扩散模型的生成能力相结合，并利用强化学习进一步优化轨迹质量。

ReCogDrive 整体概览图展示了其从低级场景感知、区域识别、运动预测到高级驾驶规划和决策的能力。该系统是一个 80 亿参数的驾驶系统，通过高质量的 310 万驾驶问答数据集和多样化的指令数据进行联合训练。

模型架构与训练流程

ReCogDrive 的模型架构由一个视觉-语言模型（VLM）和一个扩散规划器组成。给定前视图图像、导航指令、自车状态和任务指令，VLM 提取高级表示供规划器使用，规划器从噪声中去噪以生成未来轨迹。

三阶段训练范式：

驾驶适应性 VLM 预训练 ：首先，研究人员收集并整理了 310 万高质量驾驶问答对，这些数据来源于开放数据集和自动标注流水线。利用这些数据对 VLM 进行预训练，使其适应真实世界的驾驶场景，从而弥合通用内容与驾驶场景之间的领域鸿沟。
基于扩散的轨迹规划器：在 VLM 预训练完成后，将其参数冻结。然后，引入一个扩散规划器，通过模仿学习（Imitation Learning）进行训练。扩散规划器能够将 VLM 提取的高级语言表示映射到连续的驾驶动作空间，从而生成平滑、连续的轨迹。
模拟器辅助强化学习：为了进一步提高轨迹质量，研究人员通过模拟器辅助强化学习对扩散模型进行微调。与模仿学习仅仅复制专家演示不同，强化学习使模型能够主动探索驾驶行为，生成更安全、更稳定、更舒适的轨迹。

训练范式对比

该图对比了模仿学习和强化学习两种训练范式。

模仿学习：扩散规划器离线训练，通过 L1/L2 损失模仿真实轨迹，但倾向于学习平均的、次优的路径。
强化学习：在 NAVSIM 模拟器中采样并评估多条轨迹，根据碰撞避免、可驾驶区域合规性等指标进行评分，并通过群组计算优势来更新扩散规划器。这种方式能够让模型主动探索，生成更优的驾驶行为。

实验设计与结果分析

研究人员在 NAVSIM 基准测试上对 ReCogDrive 进行了广泛的实验评估。NAVSIM 是一个面向规划的自动驾驶基准，它提供了一个非反应式模拟环境，并使用预测驾驶员模型分数（Predictive Driver Model Score, PDMS）作为其闭环规划指标。PDMS 综合了无碰撞（NC）、可驾驶区域合规性（DAC）、碰撞时间（TTC）、舒适度（Comf.）和自车进展（EP）等五个子指标。

该表展示了 ReCogDrive 在 NAVSIM navtest 上与其他方法的性能对比。ReCogDrive 取得了 89.6 的 PDMS 分数 ，创造了新的最先进水平。值得注意的是，尽管 ReCogDrive 仅依赖于摄像头数据，但其性能超越了使用摄像头和激光雷达输入的 DiffusionDrive 和 WoTE 等模型。

该表展示了 ReCogDrive 在扩展指标下的性能对比，进一步验证了其在驾驶方向合规性（DDC）、车道保持能力（LK）等方面的卓越表现。

消融研究

该表展示了 ReCogDrive 各组成部分的消融研究结果。

仅在 NAVSIM 轨迹数据上训练 InternVL3，PDMS 为 83.3。
通过大规模驾驶问答数据将 VLM 适应到驾驶场景，PDMS 提升了 2.9。
引入扩散规划器进行连续轨迹预测，PDMS 进一步提升了 0.6。
最终，模拟器辅助强化学习带来了 2.8 的显著提升，达到了 89.6 的 PDMS，证明了强化学习方案在生成更安全驾驶行为方面的价值。

定性结果

该图展示了 ReCogDrive 在 NAVSIM 上的定性结果。ReCogDrive 不仅能预测平滑、无碰撞的轨迹，还能在转弯、直行和交叉路口等场景中输出高级指令、场景描述和物体高亮，展示了其感知和规划能力。

该图展示了 ReCogDrive 在道路标志识别和交叉路口转弯规划方面的能力：给定前视图图像和用户查询，ReCogDrive 生成详细的场景描述，识别交叉路口的关键交通标志，并预测安全的转弯轨迹。

该图展示了 ReCogDrive 在场景理解和轨迹规划方面的能力：在红灯交叉路口，前方有刹车车辆，ReCogDrive 描述了交通灯和道路状况，识别交通灯和前方车辆，并预测准确的停车轨迹。

该图展示了 ReCogDrive 在行为预测和规划方面的能力：在绿灯交叉路口，ReCogDrive 描述了道路和交通状况，识别绿灯信号和前方车辆的行为，生成高级的"保持直行"指令，并预测自车的精确连续轨迹。

论文贡献价值

这项工作提出了 ReCogDrive ，一个集成了 VLM 和扩散规划器的端到端自动驾驶系统，并采用了 三阶段训练范式。

数据驱动的认知注入 ：通过构建和整理 310 万高质量驾驶问答数据集，有效地将驾驶特定认知注入到预训练的 VLM 中，弥合了通用领域知识与真实驾驶场景之间的鸿沟。
连续轨迹生成：通过扩散规划器将离散的语言表示映射到平滑、连续的轨迹，同时保留了 VLM 固有的世界认知和驾驶特定认知。
强化学习增强：利用模拟器辅助强化学习，进一步强化了扩散策略，将泛化驾驶认知融入其中，从而生成更安全、更类人的轨迹。
卓越的性能 ：在 NAVSIM 基准测试上取得了 最先进的性能，尤其是在闭环指标上，且无需激光雷达输入，展示了其在实际应用中的潜力。

#MoVieDrive

超越一众SOTA！华为：自动驾驶环视多模态场景生成最新世界模型~

近年来，视频生成在自动驾驶领域的城市场景合成中展现出优越性。现有的自动驾驶视频生成方法主要集中在RGB视频生成上，缺乏支持多模态视频生成的能力。然而多模态数据（如深度图和语义图）对于自动驾驶中的整体城市场景理解至关重要。虽然可以使用多个模型来生成不同的模态，但这会增加模型部署的难度，并且无法利用多模态数据生成的互补线索。为了解决这个问题，本文提出了一种全新的面向自动驾驶的多模态环视视频生成方法。具体而言，我们构建了一个由模态共享组件 和模态特定组件组成的统一扩散Transformer模型。然后利用多样化的条件输入，将可控的场景结构和内容线索编码到统一的扩散模型中，以实现多模态多视角视频生成。通过这种方式，我们的方法能够在统一的框架内生成多模态多视角的驾驶场景视频。在nuScenes上的实验表明，MoVieDrive能够生成高保真度且可控性强的多模态多视角城市场景视频，性能超越了现有最先进方法。

论文标题：MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation
论文链接：https://arxiv.org/abs/2508.14327****

简介

用于自动驾驶的城市场景视频生成近年来发展迅速。它可以用来生成可控的驾驶场景，特别是合成在现实世界中难以收集的长尾场景。这有助于提升自动驾驶的性能并进行可靠性评估。

当代的视频生成方法，如SVD和CogVideoX，在生成高质量视频方面已展现出令人瞩目的性能。然而，它们不能直接用于自动驾驶，因为多视角驾驶场景生成需要多视角时空一致性 和高可控性。

为了解决这个问题，一些近期的研究探索了扩散模型用于可控的多视角城市场景生成，并取得了令人鼓舞的性能。然而，这些方法大多专注于单模态的RGB视频生成，缺乏支持多模态视频生成的能力。作为一个以感知为核心的任务，自动驾驶对多模态数据（如深度图和语义图）有着固有的需求，这些数据有助于实现更安全、更高效的自动驾驶，促进对城市场景的整体理解。

解决此问题的一种常见方法是使用多个模型来生成不同的模态，但这通常会增加模型部署的难度，并且无法充分利用多模态数据生成的互补线索。

在本研究中，我们提出了一种新颖的、面向自动驾驶的多模态多视角视频扩散方法，称之为MoVieDrive 。如图1所示，与使用多个模型生成不同模态的以往方法不同，我们的方法提出使用一个统一的模型来联合生成多模态多视角的驾驶场景。图2展示了我们方法的概览。具体而言，我们采用多样化的条件输入，包括文本条件、参考条件和布局条件，以指导可控的场景生成。其中，文本条件指导整体场景生成，参考条件是可选的，仅用于未来场景预测，而布局条件则捕捉细粒度的场景线索。接下来，我们将多模态多视角场景生成分解为模态共享学习 和模态特定学习，并设计了一个包含模态共享层和模态特定层的统一扩散Transformer模型。这个统一的模型减轻了对多个模型的需求，并提高了模型的可扩展性。然后，我们将各种条件编码到统一的扩散模型中，以进行多模态多视角场景生成。这有助于利用多模态数据的互补线索，实现更丰富的场景理解，从而在统一的框架内促进多模态多视角城市场景的生成。为了评估我们方法的性能，我们在nuScenes数据集上进行了广泛的实验，这是一个具有挑战性的现实世界自动驾驶数据集。实验结果表明，与现有最先进方法相比，我们的方法在视频生成质量和可控性方面均取得了令人信服的成果，同时支持多模态数据生成。

总结来说，本文的主要贡献如下：

提出了首个利用多样化条件输入和扩散Transformer模型进行多模态多视角自动驾驶场景生成的工作。这解决了现有工作的局限性，并促进了自动驾驶中的城市场景理解。
设计了一个由模态共享组件和模态特定组件组成的统一多模态多视角扩散Transformer模型 。这使得在单一模型内实现多模态多视角城市场景生成成为可能。

相关工作回顾

**视频生成 (Video Generation)**。作为计算机视觉领域一个长期的研究课题，视频生成已得到充分发展，并探索了多种类型的方法，例如扩散模型、变分自编码器（VAEs）、生成对抗网络、自回归模型等。其中，基于扩散的方法由于在可控性和保真度方面的优越性，近年来已成为主流。然而，这些方法不能直接应用于自动驾驶的城市场景生成，因为后者需要多视角时空一致性和高可控性。为了将它们适应于复杂的可控驾驶场景生成，需要进行大量修改。我们的方法继承了基于扩散的视频生成的优点，并为自动驾驶设计了一种新的多模态多视角扩散Transformer模型。

**城市场景合成 (Urban Scene Synthesis)**。城市场景和资产生成的快速发展极大地促进了自动驾驶中的数据合成和闭环评估。在自动驾驶的城市场景合成中，主要有两个研究方向。一条研究路线探索了渲染方法，例如神经辐射场（NeRF）和3DGS（3D Gaussian Splatting），用于城市场景合成。尽管这类方法能实现高保真度的场景合成，但其可控性和多样性较差。另一条研究路线则探索了视频生成方法，例如扩散模型，用于城市场景生成。其中，一些研究专注于单视角生成，而其他研究则探讨了多视角生成。我们的工作聚焦于更具挑战性的环视场景。扩散模型被广泛用作当代多视角城市场景生成的backbone网络，例如DriveDreamer、Panacea、MagicDrive、MagicDrive-V2、Drive-WM、MaskGWM等。尽管这些方法已展现出有希望的结果，但它们仅关注单模态的RGB视频生成，缺乏为整体场景理解生成多模态数据的能力。此外，UniScene提出使用多个模型来生成RGB视频和LiDAR点云，但仍未能构建一个统一的模型来实现多视角多模态驾驶场景生成。与现有工作不同，我们的方法提出在统一框架内生成多模态多视角的驾驶场景视频，填补了现有方法留下的空白。

**多模态合成 (Multi-Modal Synthesis)**。近年来已提出一些基于扩散的多模态合成方法。然而，这些方法均未针对城市场景生成而设计，且将它们修改以适应复杂的可控多模态多视角场景生成并非易事。我们的方法与这些工作不同，我们提出了一种新颖的框架，该框架利用多样化的条件输入，将可控的场景结构和内容线索编码到一个扩散Transformer模型中，以实现多模态多视角的驾驶场景生成。

MoVieDrive算法详解

概述

**问题陈述 (Problem Statement)**。本工作专注于自动驾驶的多模态多视角城市场景视频生成。具体而言，我们的目标是学习一个模型，该模型以场景描述（例如文本提示、框图等）为条件，生成种模态的场景视频，例如RGB视频、深度图视频、语义图视频等。每个场景视频包含帧和个相机视角。

流程概述 (Pipeline Overview)。图2展示了我们方法的概览。我们的方法遵循基于扩散的视频生成范式。如图2左侧所示，我们通过文本条件、参考条件和布局条件构建场景描述，并使用相应的编码器提取这些条件的嵌入（embeddings）。布局条件和参考条件的嵌入与噪声潜变量（noisy latents）拼接，作为输入输入到扩散模型；而文本条件的嵌入则通过交叉注意力（cross-attention）层注入扩散模型。这里的噪声潜变量在推理时通过从高斯分布中采样随机噪声获得，而在训练时通过对真实帧潜变量（由VAE编码器提取）添加按计划调度的噪声获得。接下来，如图2中间所示，我们构建了一个多模态多视角扩散Transformer模型，该模型由模态共享层（包含时间层和多视角时空块）和模态特定层（包含跨模态交互层和投影层）组成。然后，我们训练该扩散Transformer模型，从条件输入中估计所添加的噪声，从而为每种模态生成干净的潜变量。最后，如图2右侧所示，干净的潜变量被用作VAE解码器的输入，以生成每种模态的多视角场景视频。

在接下来的章节中，我们将详细介绍条件输入编码、多模态多视角扩散Transformer以及模型训练与推理。

条件输入编码

**文本条件 (Text Conditions)**。文本条件用于指导整体场景生成。在我们的框架中，我们使用两种类型的文本条件，包括相机提示（camera prompts）和文本提示（text prompts），并使用双文本编码器生成文本条件嵌入。对于相机提示，我们将应用了傅里叶嵌入（Fourier embedding）的相机内参和外参进行拼接，并使用基于MLP的编码器提取相机嵌入。对于文本提示，我们使用视频字幕描述，并应用一个冻结的T-5文本编码器来提取文本嵌入。我们将这些嵌入拼接为。该过程可表述为：

其中表示拼接。

Layout Conditions。为了实现细粒度的场景结构和内容控制，我们使用三种类型的布局条件，包括框图（box maps）、道路图（road maps）和基于占据的布局图（occupancy-based layout maps）。这些布局条件可以从人工标注或预训练模型中获得，对于控制复杂多视角驾驶场景生成中的细粒度细节非常有用。对于框图，不同于中使用框坐标来提取框嵌入，我们直接通过将目标3D框位置投影到图像平面并为不同类别分配不同颜色来生成2D框图。对于道路图，我们将道路结构线索（车道分隔线、人行横道和车道边界）投影到图像平面，并为不同类别分配不同颜色。此外使用基于占据的布局图来进一步增强场景的细粒度控制。这是通过将稀疏的3D占据（3D occupancy）投影到图像平面来生成稀疏语义图实现的。请注意，这些语义图是粗糙且稀疏的，与自动驾驶中用于城市场景理解的密集语义模态不同。3D占据在自动驾驶中已被深入研究，在实践中，3D占据可以通过现成的模型或仿真器获得。

为了编码这些布局条件，与之前的工作（使用多个编码器）不同，我们提出使用一个统一的布局编码器在将这些条件输入扩散模型之前对其进行融合。具体而言，我们采用因果卷积层（causal convolutional layers）构建因果ResNet块（causal resnet blocks），灵感来自。然后，我们使用为每种条件单独设置的因果块和一个所有条件共享的共享因果ResNet块来构建统一的布局编码器。通过这种方式，我们将布局条件融合以生成用于可控场景生成的布局条件嵌入。该过程可表述为：

其中 , 和是用于处理每种条件的因果ResNet块，而是共享的因果ResNet块。

参考条件。在城市场景生成中，参考条件指的是初始帧条件，它是可选的，仅用于未来场景预测，类似于世界模型。我们使用一个3D VAE编码器来编码这些参考条件，但由于每种模态通常只有一个初始帧，因此我们将时间维度设置为1。请注意，在我们的方法中，我们为所有模态使用一个共享的预训练3D VAE（来自CogVideoX），而不是为不同模态使用不同的VAE。由于CogVideoX中的3D VAE是在海量真实世界视频语料库上训练的，因此它在编码和解码不同模态的视频方面表现良好。

在模型训练期间，我们使用共享的预训练3D VAE编码器提取真实帧的潜变量以生成噪声潜变量。因此，条件输入通过以下方式获得：

其中是一个卷积层，用于调节嵌入的维度与相同。

多模态多视角扩散Transformer

当代的视频扩散模型不能直接用于多视角可控的城市场景生成。另一方面，现有的驾驶视频扩散模型缺乏为整体场景理解生成多模态数据的能力。为了解决这个问题，我们在本工作中设计了一种新的多模态多视角扩散Transformer模型。

具体而言，由于一个共享的预训练3D VAE 可以用于编码和解码不同模态的视频，我们推测不同模态共享一个共同的潜在空间，只需要某些组件来捕捉模态特定的内容即可将它们区分开来。基于此，我们将模型学习过程分解为模态共享学习 和模态特定学习 ，并构建了一个由模态共享组件 和模态特定组件组成的统一扩散Transformer模型。

对于模态共享组件 ，我们使用来自CogVideoX的时间注意力层（包含3D全注意力）来学习视频帧之间的时间一致性，并通过时间注意力层中的交叉注意力注入文本条件。这里，每种模态的条件输入的维度被转换为以适应时间注意力层。然而，这些时间层无法保证多视角视频生成的时空一致性。因此，我们在时间层块之后附加多视角时空块来学习场景结构并捕捉时空一致性。如图3所示，每个多视角时空块由一个3D空间注意力层、一个3D空间嵌入层、一个时空注意力层和一个前馈层组成。3D空间嵌入层是一个多分辨率哈希网格（multi-resolutional Hash grid），它将3D占据位置编码为3D空间嵌入，这些嵌入被加到时间层块的潜变量上，以增强空间一致性。3D空间注意力层是一个自注意力层，它将潜变量维度变换为，以学习所有周围相机视图的3D空间结构信息。时空注意力层是一个3D全注意力层，它将潜变量维度变换为，以捕捉多视角驾驶场景生成的完整时空信息。在实践中，我们每隔个时间层块后附加一个多视角时空块，而不是在每个块之后都附加。前馈层是一个全连接层，用于进一步变换潜变量。请注意，我们还在每一层之间使用了自适应归一化（adaptive normalization），以及自适应缩放和偏移（adaptive scaling and shifting）来调制潜变量。该过程定义为：

其中是扩散时间步，是来自前一层的潜变量输出，是来自模态共享层的潜变量输出。

对于模态特定组件 ，我们为每种模态构建每个跨模态交互层块，它包含一个自注意力层、一个交叉注意力层和一个前馈层，其中每一层之间也使用了自适应归一化以及缩放和偏移。在这里，交叉注意力层的查询（query）是每种模态的潜变量，而键（key）和值（value）来自其他模态潜变量的拼接。这个跨模态交互层块用于学习模态特定的内容，同时保持跨模态对齐。在实践中，跨模态交互层块被附加在每个模态共享层之后。对于每种模态，该过程可表述为：

其中是来自跨模态交互层的模态特定潜变量输出，表示交叉注意力层中来自其他模态的键和值。

在个模态共享层和跨模态交互层之后，我们使用模态特定的投影头（一个带有自适应归一化的线性层）来估计所添加的噪声并为每种模态生成干净的潜变量。每种模态的干净潜变量被用作VAE解码器的输入，以生成模态特定的多视角场景视频。通过这种方式，我们的扩散Transformer模型能够在统一的框架内生成具有高保真度、高可控性和时空一致性的多模态多视角视频。请注意，我们的方法既可用于单模态也可用于多模态生成，且模态不仅限于RGB视频、深度图和语义图，还可以扩展到其他模态，例如法线图、光流图等。

模型训练与推理

对于模型训练，我们采用DDPM噪声调度器，并将多模态生成的训练目标定义为：

其中对于第种模态，是训练损失的权重，是真实干净的潜变量，是噪声潜变量，是条件，是扩散模型，是时间步。此外，使用条件丢弃（conditioning dropout）作为一种增强策略，以提高模型的泛化能力和输出多样性。在推理时，从高斯分布中采样随机噪声作为模型输入。我们采用DDIM采样器来提高反向扩散过程的效率，并使用无分类器引导（classifier-free guidance, CFG）来平衡输出的多样性和条件一致性。

实验结果分析

数据集与实验设置

**数据集 (Dataset)**。遵循先前的工作，我们在nuScenes数据集上进行实验。nuScenes数据集是一个真实世界的自动驾驶基准数据集，包含700个训练视频和150个验证视频。我们使用官方的训练集和验证集进行实验。

评估指标 (Evaluation Metrics)。为了评估视频保真度，我们使用常用的FVD作为指标。为了评估可控性，使用预训练的BEVFormer来评估基于视频的3D目标检测性能（以mAP衡量）和基于视频的鸟瞰图（BEV）分割性能（以mIoU衡量）。为了评估生成深度图的质量，我们还使用了绝对相对误差 AbsRel。此外，为了评估生成语义图的质量，我们报告了交通相关类别、建筑物、树木和天空的mIoU。

实现细节。我们在CogVideoX(v1.1-2B)和SyntheOcc的基础上构建我们的模型。我们采用预训练的T5文本编码器，并使用预训练权重初始化3D VAE和时间层。在训练过程中，3D VAE和T5文本编码器被冻结，而其他模型组件则联合训练。我们的模型使用AdamW优化器进行训练，学习率为2e-4。默认情况下，我们使用6个相机和49个视频帧，每个帧的分辨率为512×256。

与SOTA对比

视频保真度结果分析。视频保真度衡量生成的城市场景视频的真实感和时间连贯性。我们在表1中报告了FVD结果，并显示我们的方法相比最先进方法取得了更好的结果。具体而言，我们的方法达到了46.8的FVD，优于最先进的DriveDreamer、DriveDreamer-2、UniScene、MaskGWM、MagicDrive等方法。此外，与CogVideoX+SyntheOcc相比，我们的方法性能提升了约22%。图4展示了一些与最先进方法的定性比较。从图4中可以看出，我们的方法能够生成具有高保真度细节（例如车辆和道路结构）的城市场景视频。

场景可控性结果分析。场景可控性指条件输入与生成视频之间的一致性。我们在表1中报告了3D目标检测的mAP和BEV分割的mIoU。我们可以看到，我们的方法在3D目标检测上达到了22.7的最佳mAP，在BEV分割上达到了35.8的最佳mIoU，优于最先进方法。这表明我们的方法能够生成与控制条件更一致的城市场景视频。

深度图质量结果分析。在表1中，我们报告了FVD和AbsRel结果以评估生成深度图视频的质量。与由Depth-Anything-V2生成的深度图（如CogVideoX+SyntheOcc+Depth-Anything-V2）相比，我们的方法在深度图上取得了更好的FVD（25.3）和AbsRel（0.110）。这表明，我们统一框架中的多模态生成能够产生高质量的深度图，即使没有使用额外的模型进行多模态生成。

语义图质量结果分析。在表1中，我们报告了FVD和mIoU结果以评估生成语义图视频的质量。我们可以看到，与最先进方法相比，我们的方法取得了更好的结果，尤其是在FVD方面，显著优于对比方法。这进一步验证了我们多模态生成方法的有效性。

消融实验

多模态生成的有效性。在表2中，我们分析了我们多模态生成机制的有效性。我们比较了ours(RGB)+Depth-Anything-V2+Mask2Former、ours(RGB+depth)+Mask2Former和ours(RGB+depth+semantic)的性能。从表2可以看出，我们统一的方法(RGB+depth+semantic)取得了优越的整体性能。具体而言，我们的方法在深度图的AbsRel和语义图的mIoU上均达到最佳，且RGB的FVD也具有可比性。这验证了在统一框架内生成多种模态不仅减少了模型数量，而且实现了更好的整体性能。我们在图5中可视化了一些多模态生成结果。这些结果进一步展示了我们方法生成的多模态数据的跨模态一致性。

扩散Transformer组件的有效性。在表3中，我们研究了所提出的扩散Transformer模型的有效性。我们可以看到，仅使用时间层块（"L1"）会导致性能较差，而使用时间层块加上模态特定层块（"L1+L3"）则带来了更好的性能。当使用所有组件（"L1+L2+L3"）时，我们的模型取得了最佳性能。此外，图6显示，我们的方法能够保持跨视角一致性，而没有使用多视角时空块的方法则表现出较差的跨视角一致性。

统一布局条件编码器的有效性 。在表4中，我们分析了我们统一布局条件编码器的有效性。我们可以看到，与使用预训练的3D VAE编码器相比，使用我们提出的统一布局条件编码器带来了更好的性能。这可以归因于所提出的模块能够实现隐式的条件嵌入空间对齐，从而有效地融合条件以进行可控的场景生成。

结论

本工作提出了一种新颖的、面向自动驾驶的多模态多视角城场景视频生成方法。其核心思想是设计一种新的多模态多视角扩散Transformer模型，并利用多样化的条件输入，在统一的框架内编码可控的场景结构和内容线索。在nuScenes数据集上的大量实验表明，所提出的方法在性能上优于最先进方法。

局限性与未来工作。尽管我们的方法在多模态多视角生成方面取得了优越的性能，但仍存在局限性。例如，如何有效地将所提出的方法与闭环自动驾驶仿真器相结合，值得进一步研究。这有望帮助全面评估自动驾驶系统的安全性和可靠性。此外，如何从生成的多模态数据中推导出LiDAR点云，是一个有趣的研究方向，可以进一步增强我们的方法。我们的未来工作旨在探索解决这些问题的方案，以促进该方法在现实世界应用中的部署。

#某头部tire1被央企主机厂控股投资事宜确定~

某头部智驾算法方案商Z，被某央企主机厂控股投资事宜已经确定，目前只待官宣；同时，据可靠消息人士透露，该头部智驾算法方案商，正基于地平线平台开发方案，前期主推J6 E/M。如此，地平线生态迎来"最重磅"算法方案商加持。

业界早有传闻，某头部智驾算法方案商Z，在与某央企主机厂商议战略投资控股事宜。

据悉双方自2024年就已经开始协商，方案始终未能敲定。2025年，算法商Z先后宣布获另两家国资主机厂的投资，使得此前的"某央企主机厂将战略控股"一事更加扑朔迷离，引得业界广泛关注。

我们独家获悉，近日，该头部智驾算法方案商，被前述央企主机厂控股投资的方案，已经于相关部门审批通过，目前只待官宣。

此番战投控股完成，意味着该算法商正式成为"国字号"队伍，背靠着头部央企主机厂，拥有更广泛的客户群及充沛的资金弹药。

智驾的终场战局，正式展开。

01 其实，Z的动作比想象中更快。

据行业人士透露，算法方案商Z今年将会正式"加入"地平线生态，于J6平台开发智驾方案。

地平线本就是业界生态企业最多、客户群最广泛的平台商。就其生态而言：高算力的J6P，目前是地平线独挑大梁，希望先打造出"智驾样板房"；低算力的J6B，则交由更为传统的Tier-1批量出货；众多算法商（QZ、ST、JZ、YH等）实质争夺的份额，是中算力的J6 E/M，这是"全民智驾"的主力产品，且几乎所有车企都有广泛需求。

此番Z的强势加入，对于地平线而言，是重大利好。

业界公认，Z在中低算力芯片平台拥有极强的工程化能力。甚至有一种声音认为，Z之前一直困在TI平台，"芝麻雕花"，所以未能实现其应有的市场竞争力。

如今，绑上地平线的客户网络，强强联手。Z的预期，从来都是和M扳扳手腕。

02 战局总在变化，一环嵌一环。

地平线原主力算法商QZ，正在谋求上市。此刻，QZ希望向资本市场讲述"两条腿走路"的故事，除地平线外，正在基于英伟达平台积极谋求量产。

然而，却迎来Z这个最强劲敌。与其他"算法创业公司"不同，Z的品牌知名度，在一众智驾供应商中，也许仅次于顶流H。

"很大程度上，这会影响QZ的上市预期。"资本的朋友这样点评。

03 智驾战事，后半场的特征已经很清晰------大军团作战。

随着"城区NOA"的战役打响，要解决L3级别的长尾问题，所需要的人、卡、数据，都是天量的；同时，随着智驾的快速普及，车型的规模化复制，智驾工厂的"规模效应"明显。智驾不再是创业公司和小团队们就能完成的事情。智驾不再是天才的"创业"，而是人海、卡海、数据海的"工业"。所以，智驾的独立团们，必须寻求与大"军阀"们整合合作，才有战斗力。

轻舟背靠奇瑞，元戎背靠长城，旷视与吉利智驾部门整合，以及本次Z的战投控股，都是这番道理。

51c自动驾驶~合集18

#DDMPC-for-AV-steering

#端到端~

#OASIS SIM V3.0

#MV2DFusion

#Panacea++

#SCP-Diff

#FastDriveVLA

#7DGS 炸场

#ReCogDrive

#MoVieDrive

#某头部tire1被央企主机厂控股投资事宜确定~

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx