51c自动驾驶~合集31

我自己的原文哦~https://blog.51cto.com/whaosoft/12121357

#大语言模型会成为自动驾驶的灵丹妙药吗

人工智能（AI）在自动驾驶（AD）研究中起着至关重要的作用，推动其向智能化和高效化发展。目前AD技术的发展主要遵循两条技术路径：模块化和端到端。模块化将驾驶任务分解为感知、预测、规划和控制等模块，并分别进行训练。由于模块之间的训练目标不一致，综合效果存在偏差。端到端试图通过利用一个直接从传感器数据映射到控制信号的单一模型来解决这个问题。这条路径在一系列功能方面的学习能力有限，难以处理不可预测的长尾事件和复杂的城市交通场景。面对这两条路径中遇到的挑战，许多研究人员认为，具有强大推理能力和广泛知识理解的大型语言模型（LLM）可能是解决方案，期望LLM为AD系统提供更深入的理解和决策能力。鉴于这两条路径都面临的挑战，许多研究人员认为，LLM凭借其强大的推理能力和广泛的知识，可以提供一种解决方案。为了了解LLM是否可以增强AD，本文对LLM在AD系统中的潜在应用进行了深入分析，包括探索其在模块化和端到端方法中的优化策略，特别关注LLM如何解决当前解决方案中存在的问题和挑战。此外，我们还讨论了一个重要问题：基于LLM的通用人工智能（AGI）能否成为实现高水平AD的关键？我们进一步分析了LLM在促进AD技术发展方面可能遇到的潜在局限性和挑战。这项调查可以为相关领域的跨学科研究人员提供基础参考，并指导未来的研究方向。

简介

自动驾驶（AD）已成为现代交通领域的一个关键研究领域，其最近的发展在很大程度上依赖于人工智能（AI）。人工智能的发展一直是AD发展的催化剂，即使是最简单的高级驾驶辅助系统（ADAS）也需要人工智能来实现。因此，可以通过AI设计的视角全面了解AD解决方案的发展。

设计AI的两种不同方式，即模块化和端到端解决方案，形成了AD的两种常见解决方案，如图1所示。第一种解决方案，即模块化解决方案，是人工智能系统设计之前的遗留问题。这些解决方案将AD分解为几个独立的任务，通常包括感知、预测、计划和控制。虽然这种模块化简化了单个任务的实现，但它往往难以实现系统集成。不同的模型，每个模型都针对独立的目标，可能会导致系统内不可避免的差距和冲突，从而导致次优性能。因此，通过执行加强一致性可能是一项艰巨的挑战。

第二种解决方案，即端到端解决方案，试图通过模仿人类行为的过程来解决这些问题。端到端解决方案利用大规模神经网络，直接根据传感器输入控制车辆。已经提出了不同的实现方式，包括模仿人类驾驶或基于控制结果的直接训练。然而，沿着这条路径的所有这些方法都有一个共同的缺点，即信息通道过长和网络结构复杂，导致在训练和引入专家知识时难以收敛。此外，端到端算法训练中涉及的数据主要与驾驶有关，而人类驾驶员在驾驶过程中利用常识和其他信息。这些挑战限制了端到端算法的进一步改进。

除了这些具体问题外，这两种解决方案在现实世界的应用中都面临着一些挑战，包括确保鲁棒性、验证性、可解释性和高效的人机交互。因此，应对这些挑战已成为AD研究的主要重点，强调了有效解决方案的必要性。

2022年底ChatGPT问世以来，人工智能领域掀起了一场新的革命。由于其庞大的规模、大量的数据和训练所涉及的技术（例如，从人类反馈中学习），大型语言模型（LLM）已经具备了推理、数据生成和理解人类意图等能力。这些能力使LLM能够在各种自然语言处理（NLP）任务中超越以前的模型。LLM在智能交通系统等各个领域的应用正在上升。具体而言，LLM的能力为AD研究中的上述挑战提供了创新的解决方案。例如，推理能力可以帮助理解和适当地应对看不见的角落情况，提高鲁棒性。生成能力可用于测试用例生成。增强对人类意图的理解有助于解决可解释性问题，改善人机交互。

最近，LLM开创了AD研究的一个新领域。研究人员越来越相信，LLM可以为传统AD解决方案提供新的视角。此外，有一种观点认为，LLM进一步为实现通用人工智能（AGI）铺平了道路，这让我们回到了关于实现完全AD的辩论。一些专家认为，大规模、通用、强大的智能是必要的，而另一些专家则认为，规模较小的特定智能体就足以完成AD任务。站在这个十字路口，本文从AD系统实施的角度系统地概述了采用LLM的最新AD进展，重点讨论了以下问题：

AD研究目前面临的挑战是什么？具体来说，这是一组与AD实施中的不同任务相对应的具体挑战（即正文中的挑战i至X）。

LLM能否为这些挑战提供卓越的解决方案，以及如何提供？

AD的最终解决方案是什么？AD算法优化的目标应该是什么？

Autonomous Driving Solutions模块化

模块化解决方案将AD系统分解为不同的模块。通常，这些模块包括感知、预测、计划和控制。

感知

感知涉及环境信息的收集、有用知识的提取以及理解环境的判断的形成。感知的准确性和全面性对于自动驾驶汽车（AV）有效地应对复杂的交通场景至关重要。感知任务最初仅限于"如何看？"的问题。这指的是对周围物体的识别和跟踪，包括静态物体（如车道、交通信号灯和其他交通基础设施）和动态物体（如车辆和道路使用者）。随着过去二十年来传感技术的进步和机器学习（ML）的发展，这些基本任务不再构成挑战。车道检测或交通信号识别等基本应用现在可以在大多数情况下正确执行，为推广低级高级驾驶员辅助系统（ADAS）铺平了道路。

更先进的传感器和神经网络结构也为感知算法提供了新的视角，感知算法已经从对象级发展到场景级。鸟瞰图（BEV）和基于Transformer的方法的出现使识别综合场景成为可能。BEV将车辆周围的多模态3D数据投影到2D地图上，确保数据表示的一致性。Transformers最初是为NLP设计的，由于其强大的注意力机制，已经证明了它们在建模多源异构数据方面的有效性。这使得BEV表示能够熟练地捕获全面的空间信息。遵循这一范式的方法，如BEVForme，在各种感知任务中表现出了卓越的性能，成为主要的感知解决方案。然而，BEV在高度信息方面的不足限制了其表示3D体积的效率。占用网络通过直接学习体素中的3D信息、将3D表面描绘为神经网络决策边界以及消除对LiDAR点云的需求来支持BEV。它们融合了几何和语义来精确地描绘场景，提高了感知效率和准确性。

随着情景信息的获取不再具有挑战性，目前的研究重点已转向通过可靠和详细的表示来全面了解环境的最终目标，即"What to see?"的问题。这要求感知系统非特定地识别周围的物体，识别它们的属性和相互作用，并彻底理解场景。从历史上看，AD感知算法经常将时间和3D空间数据合并到2D对象检测框架中（例如YOLO、CenterNet），合并来自LiDAR、相机的输入，并利用PointNet等不同的深度学习模型进行信息处理。然而，在不同尺度（如时间、空间、任务相关）上整合特征带来了挑战。

尽管取得了长足的进步，但现有的感知解决方案仍然面临着几个挑战。第一：

CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?

当前基于学习的方法严重依赖于训练数据，当遇到现实世界数据长尾分布中存在的角点情况时，它们的性能会显著下降。第二：

CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?

当前的场景理解方法更像是简单地整合所有数据和模态，而不是理解场景。最后：

CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?

这些挑战凸显了AD的复杂性以及在该领域进行持续研究和创新的必要性。

预测

预测是AD过程中的一个关键组成部分，其目标是根据物体过去的运动轨迹预测物体（主要是行人和车辆）即将到来的运动轨迹。该模块最初不是AD工作流的一部分。随着过去二十年AD解决方案的演变，预测作为一个独立的部分逐渐引起了人们的关注，弥合了感知和规划之间的差距。从功能上讲，它直接利用感知作为输入，而其输出则是后续规划和控制任务的重要参考。从时间的角度来看，预测代表了从过去到现在和未来的过渡，这是端到端工作流不可或缺的过渡。传统的预测方法主要是基于模型的。这些包括物理模型、意图模型和交互模型。这种方法在处理轨迹的不确定性方面存在局限性，特别是在较长的时间范围内。

在过去的十年中，基于学习的方法逐渐主导了预测任务的解决方案。例如，循环神经网络（RNN）及其衍生网络架构，如长短期记忆（LSTM）网络，在基于深度学习的预测范式中得到了广泛应用。其他使用的网络架构包括卷积神经网络（CNN）和图形注意力转换器。这些基于学习的方法显著提高了更广泛时期内预测的可靠性和准确性，而BEV等感知技术的进步实现了多目标协同预测。这标志着预测建模领域的发展，强调了协作预测策略在实现卓越预测结果方面的重要性。根据目标的不同，最新的预测方法能够提供持续几秒甚至十多秒的轨迹准确预测。在大多数情况下，这对于后端AD任务来说是足够的。

目前对预测任务的研究旨在提高动态环境中的准确性，以提高AD的安全性和效率，这需要关注的不仅仅是轨迹，还有情况。车辆必须了解并适当应对社会动态或不同的环境，这可以归结为另一个具体的挑战：

CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?

应对这一挑战将是朝着更准确和更先进的预测方法迈出的又一步。

规划

规划是指自动驾驶汽车根据给定的交通环境和车辆的情况设置未来驾驶路线或轨迹的过程。根据具体的功能和规划范围（空间和时间），规划通常可分为路线规划、行为规划和轨迹规划（也称为运动规划）。具体而言，路线规划概述了车辆的道路网络级路径，通常称为"导航"。行为规划在规划路线上的重要航路点提供决策。轨迹规划生成了一个精确的时空轨迹，连接车辆要遵循的路点。

尽管有各种目标和限制，但不同的规划任务可以以类似的方式制定，因此共享类似的方法。例如，原始规划方法起源于传统的搜索方法，包括A*、快速探索随机树等。这些被称为基于搜索的规划方法。基于优化的方法利用优化理论来搜索最优轨迹。与基于搜索的方法相比，这些方法在复杂场景中更省时。

基于学习的方法也出现在规划中。例如，强化学习（RL）在规划任务中得到了广泛的应用，规划任务通常被表述为马尔可夫决策过程。模仿学习（IL）为基于学习的计划提供了一种不同的范式。其他方法将神经网络与现有的规划方法相结合，或使用神经网络直接生成计划轨迹，为规划任务提供实时在线解决方案。

目前规划方法的研究差距主要在于两个方面。第一：

CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?

这要求系统更好地整合来自前端模块的信息，同时处理继承的不确定性。第二：

CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?

这将有利于规划过程的稳健性和更好的性能。

控制

传统模块化的最后一步是控制，它涉及车辆沿着预设的计划轨迹行驶（轨迹跟踪）。这种过程的基本目标是使目标轨迹和真实车辆轨迹之间的误差最小化。其他控制目标包括提高稳定性或乘坐舒适性。

已经为控制过程开发了各种控制器和方法。基本控制方法，如纯追踪[24]，主要考虑了车辆的运动学约束。相比之下，其他方法结合了车辆的动态特性来实现更精确的控制。控制器，如模型预测控制（MPC），擅长管理更复杂的场景。鉴于车辆相对于外部环境的固有稳定性和控制问题的性质，基于学习的方法在控制任务中的使用频率较低。然而，混合控制器的出现值得注意，例如基于学习的MPC，它融合了传统控制器和基于学习的控制器。

车辆控制的主要挑战在于一个问题。

CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?

现实世界的场景包括从车辆达到稳定性阈值的极端操作条件到个性化控制要求。适应各种场景需要控制器具有更好的鲁棒性和精确调整的空间。控制模块还需要与AD解决方案中的前端模块协调，以实现更好的性能。

端到端

与模块化解决方案相比，端到端AD采用了不同的路线图。从狭义上讲，端到端AD试图模仿人类驾驶车辆的方式，其中使用一个大规模神经网络将原始传感器输入直接映射到车辆的轨迹点或控制命令。端到端AD的第一次尝试，即神经网络中的自主陆地车辆，可以追溯到20世纪80年代。它试图将相机和Lidar的输入直接映射到车辆的转向控制。

随着机器学习方法的进步，端到端AD在过去十年中蓬勃发展。端到端AD中应用最广泛的学习技术是IL。IL是一种监督学习方法，可进一步分为行为克隆和逆最优控制。端到端AD中涉及的另一种学习方法是RL，并且应用了包括策略蒸馏在内的技术来提高算法的性能。此外，数据集的不断积累、日益完善的测试环境和评估指标进一步加速了端到端AD的实际应用。使用端到端方法训练的Tesla FSD系统等AD系统已经应用于开放环境。

随着对端到端解决方案的研究不断深入，重点正转向这些解决方案背后的核心思想，而不是其形式。端到端方案的集成方法为传输各种类型的信息和数据提供了一个统一的渠道。这最大限度地减少了信息在不同模块或子任务之间传输过程中的丢失和压缩，这被认为是端到端解决方案的优点之一。应用这一理念，许多模块子任务的广义"端到端"应用正在出现，特别是被划分为多个分层子任务的感知和规划模块。例如，"端到端"感知模块将传感器的数据作为输入，同时提供集成和完整的场景感知输出。这些通用的端到端模块使子任务的训练和执行更加顺畅和高效。

与此同时，端到端AD系统的形式也在不断发展。例如，最新的统一端到端自动驾驶（UniAD）解决方案，被称为"模块化端到端AD"，集成了AD的三个主要任务和六个次要任务。每个模块在网络结构方面保持相对独立。在训练过程中，每个模块在整个系统训练之前都经过预训练，以确保训练目标的一致性。这种方法在闭环仿真验证中表现出了出色的性能，证明端到端解决方案的本质不一定是用单个网络完成所有任务。

尽管端到端解决方案正在迅速发展，并解决了模块化AD系统中的一些现有问题，但还存在一些其他挑战。与模块化AD相比，端到端系统在更大范围内利用神经网络，几乎完全依赖于训练数据，这两者都增加了训练过程中的挑战。例如：

CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
CHALLENGE X: how to improve the interpretability of end-to-end solutions?

大语言模型的发展

现代语言处理模型起源于两种范式：基于规则和统计。基于规则的语言模型依赖于手动定义的语法、语义和语用规则，使用一组手动规则生成自然语言。这种方法的局限性在于需要大量手动设置的规则，这使得在真实的语言语料库中覆盖所有场景变得具有挑战性。另一方面，统计语言模型依赖于大型语料库中的词汇统计分布，例如在上下文中使用n个单词预测文本的n元语法模型。这些模型标志着语言处理中理性主义方法的开始。

随着深度学习的进步，研究人员开始使用神经网络模型来学习自然语言的复杂结构和语义信息。RNN成为处理自然语言和其他时间序列问题的经典模型框架。通过引入跨时间步长共享的循环结构和权重参数，RNN可以处理不同长度的自然语言文本序列并捕获隐藏特征。LSTM网络是对传统RNN的改进，引入了存储单元，有选择地保留或忘记信息，以有效解决梯度消失或爆炸等问题。在此基础上进行的一些工程包括门控循环单元（GRU）。2017年，Transformer凭借其强大的上下文处理能力，逐渐开始应用于NLP任务。与之前的统计模型相比，这些基于神经网络的模型在处理语言中的表示和特征方面具有更好的方法，从而在特定的NLP任务中表现出更好的性能。

随着网络结构的进步，一种新的语言模型训练方法------预训练，也有助于语言模型的进一步发展。2018年，谷歌推出了BERT（变压器的双向编码器表示），这是一种基于注意力机制的预训练语言模型。它采用两阶段策略，首先在大规模语料库上进行无监督预训练，然后对特定任务进行监督学习微调，以适应下游任务。第一个生成预训练模型GPT-1也于2018年由OpenAI发布。GPT-1利用基于Transformer架构的网络模型，特别是仅使用解码器的结构，通过生成式预训练和判别式微调，在特定任务上实现了卓越的性能。GPT-2是2019年发布的高级版本，也采用了只有堆叠编码器的结构。与GPT-1不同，它使用无监督学习模式，仅基于输入和任务概率模型预测输出。这些模型可以称为"预先训练的语言模型"，它们对零样本学习和迁移学习具有重要意义，为LLM的发展铺平了道路。

LLM的参数达到一定规模（例如数十亿或数千亿），在过去三年中作为一种新兴的人工智能技术引起了广泛关注。它们继承了预训练语言模型的结构和训练范式，并受益于其规模增加所提供的可扩展性和涌现效应。LLM不仅在语言相关任务中实现了显著的性能提升，而且还展示了上下文学习等能力，可以应用于其他不同的场景。2020年，在GPT-2的单向语言模型训练之后，引入了GPT-3，但使用了更大的模型和数据集。实验结果表明，GPT-3在小样本学习场景中取得了优异的性能。2023年3月，OpenAI发布了GPT-4，同年5月，GPT-4的技术报告发布。与过去三个版本的GPT相比，GPT-4在小样本学习、逻辑推理、多模式理解、安全性和对更长上下文的支持方面取得了重大进展。

类似的LLM还包括Genimi，它利用PaLM 2等高级语言模型在NLP和信息检索方面表现出色；Claude强调安全性和可解释性，在需要安全和对齐的人工智能系统的场景中尤其有价值；LLaMA，一种开源模型，通过提供一个可访问的平台来探索LLMs，对研究界产生了重大影响；Command R专注于检索增强生成，以增强内容创建和业务应用。

大语言模型在自动驾驶中的应用

模块化方法

感知

在AD感知任务中，LLMs促进了传统感知任务解决方案的改进，开辟了新的研究方向。目前，LLMs在感知任务中的应用主要集中在以下几个方面：

首先，LLM可以直接用于传统的感知任务。尽管该语言很难直接用于获取或描述周围环境，但它可以作为模态之间的缓冲区，并与视觉和激光雷达等模态结合，进行简单的推理。这提高了感知任务的效率，并优化了不同场景下的性能。例如，[48]使用LLM来分析行人的语言线索，从而提高行人检测的准确性。

此外，由于LLM能够理解复杂的场景，LLM已被直接用于对复杂场景的全面感知，整合各种感知信息以理解复杂的交通环境和驾驶情况。LLM通过分类、识别和理解交通场景中动态和静态元素之间的关系，提高了对AD系统内复杂交互的理解。他们还对这些元素在时间和空间上的相互作用进行了推理，为挑战II提供了解决方案。例如，[52]利用传统的3D感知管道来增强VLM的感知能力。在GPT-4V（ision）的道路上，[53]展示了VLM在处理非分布场景和在实际驾驶环境中识别意图方面的潜力。

LLM的综合能力也揭示了角案例的问题，这是当前感知算法中一个值得关注的问题（挑战I）。[56]分析了LLM理解AD场景的能力，确定了LLM实现类人表现的关键能力，指出LLM能够通过理解情况来解决AD中的关键问题。

最后，LLMs还通过语言情态以各种形式增强现有的感知数据。这些应用程序不仅促进了人与机器之间的透明可解释性，还促进了LLM进一步进行规划和控制，为挑战III提供了一种可能的解决方案。例如，关于对象引用，[59]提出了一种统一的视觉语言模型，该模型可以引用人类指令中描述的对象并在图片框中生成边界框。[60]提出了一种基于GPT-4的上下文感知视觉接地框架。该框架可以响应自然语言指令，引用提到的关键对象，并提供对人类当前情绪的分析。基于OpenFlamingo VLM框架，使用扎根思维链指令训练了一个视觉语言模型，该模型旨在吸收类人能力作为对话式驾驶助手，以与AD任务保持一致。训练好的模型能够提供对场景的理解。

预测

由于LLM的任务能力更强，预测任务以两种方式发展。一方面，预测通常是使用LLM与感知或规划相结合来实现的。这将提高系统的整体效率，并为预测部分提供更准确的信息。[67]嵌入自然语言描述和交通场景的光栅化图像表示，以实现轨迹预测。[68]使用LLM从过去的轨迹中得出运动线索，并将其与传统方法相结合，以更好地预测未来的轨迹。

另一方面，LLM利用其推理能力进行情景预测，为挑战IV提供了部分解决方案。[71]提出了一种将高分辨率信息整合到多模态LLM中的方法。语言模式用于对低分辨率视频进行推理，并为高分辨率视频帧提供先验和亮点。该框架还根据预测的风险和情景为即将发生的行为提供了建议。

规划

LLMs的推理能力和常识使他们能够为车辆制定各种计划，并担任车辆驾驶员。通常，规划任务包括路线规划、行为规划、轨迹规划和混合规划。

关于路线规划，LLM可以使用地图信息、交通规则和用户意图来规划车辆的最佳路线。可以考虑交通拥堵、道路建设和天气条件等因素来选择最方便、最安全的路径。[73]将LLM应用于周围环境的口头描述、导航指令和其他相关信息，以提供城市环境中的元动作级导航序列。[74]使用LLM提取用户的意图，并相应地以描述和地图注释的形式提供路线规划。

在行为规划方面，LLM可以决定车辆在不同情况下的行为，如加速、减速、变道和避开障碍物。这种元动作决策可以使用自然语言来理解和执行，需要综合考虑车辆动力学、周围环境和其他车辆的行为。[76]提出了一个持续学习框架，以增强AD中多模态LLMs的行为决策。[77]利用LLMs根据特定情况提供元动作级行为。LLMs能够学习专业司机的经验，逐步提高他们的驾驶技能。

关于轨迹规划，除了定量元动作外，LLM还可以为车辆提供更精确的轨迹，例如包括转弯、超车和停车在内的轨迹。[80]利用LLM的闭环框架在复杂场景中提供定性运动规划。副驾驶框架能够以坐标点的形式为车辆提供详细的轨迹[81]。

关于混合规划，LLM的推理能力也使混合规划（挑战V）成为可能。这种混合管道整合了不同层次的规划，甚至部分感知，形成了"端到端"的规划解决方案。[52]提出了一种包含场景描述、场景分析和层次规划的思维链（CoT），以形成车辆的轨迹计划。[82]提出了一种"GPT驱动程序"，利用GPT作为AD任务的运动规划器，通过"提示推理微调"过程实现。[83]在实际驾驶任务中使用了LLM，其中LLM用于生成规划车辆运动的代码。下游控制器也被用来控制车辆。

除了在规划中直接应用LLM外，另一种常见的方法是将LLM与现有的规划方法相结合。LLM通过推理或增强来提高传统方法的性能。这可以称为基于模型的规划（解决挑战VI）。[86]提出了一种利用LLM来提高感知、预测和规划性能的框架。

控制

由于控制任务对快速响应的要求，LLM目前很难直接替换现有的控制器。然而，由于LLM的理解和推理能力，他们可以在更高的层次上参与控制任务，例如与规划任务相结合，以提高效率和对不同场景的适应性（解决挑战VII）。[88]将LLM与MPC相结合，在AD场景中精确控制车辆。LLM在此过程中提供高级决策，并使用相应的矩阵对MPC控制器进行微调。该框架也被认为适用于多车辆控制场景。

还多次尝试将LLM直接应用于AD车辆的控制。它们中的大多数将计划和控制相结合，根据元动作提供更精确的控制器信息。[81]提出了一种使用ChatGPT作为控制器选择器的Co-Pilot框架，该框架可以完成所需的任务并调整其输出以正确满足人类意图。

端到端方法

作为一种更系统的解决方案，LLM参与了端到端AD解决方案实施过程中的不同步骤，总结如下。

数据基础

基于学习的AD算法，特别是端到端解决方案，在很大程度上依赖于海量数据。因此，作为解决方案的一部分，提出了许多用于训练基于LLM的端到端算法的新数据集。这些数据集大多包含自然语言注释，因此提供了一个全面的渠道，通过这个渠道，语言可以在训练和实现过程中应用。这种注释也可以作为一种提炼的知识，从而提高训练效率。[92]使用基于Graph VQA的工作流来实现端到端AD，提供了一个包括数据集、任务、基线和指标的整体解决方案。[65]集成视频帧和文本作为输入，模型的输出包括响应和预测控制信号。训练过程包含两个阶段，预训练和混合微调，后一阶段使用ChatGPT注释数据。

表1列出了更具代表性的LLM相关数据集。值得注意的是，这些数据集的贡献不仅限于端到端的解决方案，因为它们为所有AD任务的开发和验证提供了重要的参考。这些数据集中自然语言的比例增加，从简单的标签过渡到自然语言描述或问答格式，也导致了与感知相关的挑战II和III。例如，[50]提出了一个基于NuScene数据集的数据集，其中包含3D驾驶场景中物体的自然语言注释。

除了基于真实场景的数据集外，在LLM生成能力的帮助下，场景生成也成为AD数据集的一个重要方面。这种能力有助于解决数据分布的长尾问题，提高训练效率。[95]提出了一个框架，即LCTGen，用于基于描述和地图数据生成动态交通场景进行模拟。LLM用于将场景的自然语言描述转换为场景的结构化表示。SimCopilot利用LLM将对象交互的自然语言描述转换为虚拟道路场景的编程代码，大大简化了AD系统交互数据的创建。WEDGE数据集直接使用DALLE大模型生成场景图像，模拟各种天气条件下的二维道路和交通场景，这是构建AD数据集的一种新尝试。

作为端到端代理的大语言模型

LLM本身可以充当代理，同时完成所有驾驶任务。Agent Driver利用LLM作为车辆的智能代理。该代理旨在通过函数调用访问驾驶信息，并充当人类。[110]提出了一种架构，该架构将场景信息编码为数字向量，并应用预训练的LLM来理解场景并提供运动水平控制。它还能够提供其行为的原因，提高解决方案的可解释性。[111]提出了一种开创性的AD通用世界模型，该模型集成了多模态LLM和扩散技术，使其能够直接预测控制信号，并根据历史视觉动作对生成未来帧，从而模拟无限的驾驶体验。Graph VQA实现了基于VLM的端到端AD流水线。在这种方法中，视觉问题引导推理过程通过不同的阶段，在复杂的场景中取得了显著的性能。

训练和思考

正如挑战IX所述，端到端AD解决方案的训练一直是一个重要的话题。法学硕士主要通过更好的推理和反思提高了这一过程的效率。[113]提出了一种新的端到端AD数据集和基准，其中包括传感器数据、控制决策和CoT标签，以指示推理过程。它还提出了一个基线模型DriveCoTAgent，在该数据集上进行训练，以生成CoT预测和最终决策，在开环和闭环评估中表现出强大的性能，并提高了端到端驱动系统的可解释性和可控性。DriveGPT4能够在模拟环境中执行零样本泛化，显示出提高训练效率的潜力。

其他方面

除了直接实现AD任务外，LLM还广泛应用于支持AD的应用，包括人机交互、安全、道德和公平问题。关于人机交互，[114]提出了一个框架，可以通过评估和迭代优化使用LLM执行AD任务的代码。[115]提出了一个以人为中心的框架，将LLM整合到AD的规划中，在复杂的驾驶任务中提供有用的帮助，并通过推理回应不同的查询。AccidentGPT可以响应驾驶员的查询，或自动提供具体建议（例如减速）和驾驶安全通知。

大语言模型会成为自动驾驶的灵丹妙药吗？

在第4节中，我们系统地展示了LLM在AD中的应用越来越多。这些应用涵盖了AD的整个领域，许多应用展示了LLMs超越现有AD算法并应对前面讨论的挑战的潜力。根据我们的调查和分析，我们试图通过基于LLM的AD解决方案的进展，提供对这些现有挑战已经或预计将如何解决的见解。因此，我们将这些见解分为以下三个层次，并在表2中描述了挑战。

解决方案洞察A：LLM在解决相应挑战方面表现出了显著的能力，可以期待基于LLM的全面解决方案。
解决方案洞察B：LLM已经证明有能力解决相应的挑战，但鉴于LLM目前的缺点，挑战可能无法完全解决。
解决方案洞察C：LLM可以提高相关任务的性能，但可能无法解决挑战中的关键问题。

如表2所示，我们可以得出结论，LLM在为现有AD算法中的当前挑战提供有效解决方案方面表现出了巨大的潜力。具体而言，我们认为LLMs在AD任务中的表现主要源于以下几个方面。

常识。常识是每个成年人都应该具备的实际判断或基本事实知识的基本水平。它是人类基于积累的经验和知识而提炼出来的理解。常识在日常生活中起着至关重要的作用。人类通过模仿快速获得特定技能的能力与此密切相关。例如，一个成年人需要大约20个小时的训练才能通过驾驶考试。这是因为训练主要侧重于驾驶的操作技能。许多其他与驾驶相关的技能，如识别交通信号或标志，都是直观理解的，不需要大量学习。然而，对于AD模型，每个元素都必须单独设计和训练。法学硕士从广泛的语料库中积累了一种"常识"。这可以被视为高维空间中特定语义指标的表示。例如，与"红灯"和"停车"概念相对应的表示向量可能在表示AD行为的维度上具有紧密投影。这使得LLM能够以最少的预先指令执行复杂的AD任务，并使很少的射击学习成为可能。
推理能力。与以前的语言模型相比，LLM能够理解文本输入中的因果关系和逻辑关系。因此，一些研究人员认为LLMs能够像人类一样进行推理。这种推理能力增强了LLM对交通场景的理解，这对于需要预测未来情况并做出相应决策的AD任务至关重要。此外，LLM的推理能力为AD中遇到的"长尾"问题提供了一种潜在的解决方案。即使在极端情况下，这些模型也可以根据其推理做出准确的决策。
沟通能力。LLM的另一个重要能力是它们可以与人类流利地交流。重新审视人类的驾驶行为，我们可以注意到语言主要用于导航和路线描述。LLM可以理解人类的意图，并通过推理提供适当的输出，因此可以直接参与驾驶过程。除了驾驶任务本身，与人类沟通的能力也有利于LLM在训练和调整过程中。人类和LLM之间的相互理解和互动在一定程度上解决了神经网络作为黑盒模型的问题。

我们注意到，LLM的这些优势部分解决了数据驱动学习算法遗留下来的几个长期缺陷。这些算法在AD实现中得到了广泛的应用，给AD任务带来了特定的挑战。因此，LLM能够为他们提供解决方案。此外，我们可以得出结论，这意味着从以数据为中心的模型向利用数据和知识的混合模型的转变。这种双重驱动的方法结合了两种范式的优点。从执行驾驶任务的角度来看，这种转变也使实施过程更类似于人类决策，这可能是AD的最终目标。我们预计未来数据和知识将在相当长的一段时间内共存，可能以LLM的形式体现出来，知识在AD解决方案中的作用逐渐凸显。未来的研究应侧重于如何更好地整合数据驱动和基于知识的方法，以提高AD解决方案的训练和实施效率。

存在的限制

尽管取得了各种进步，但我们必须指出，LLM在AD中的进一步应用面临着许多局限性和挑战。作为一种安全关键场景，这些局限性需要在未来的研究中得到更多的关注。其中一些局限性主要是由于当前LLM性能的缺点，这些缺点继承了它们的模型结构、训练方法或实现。

LLMs的"幻觉"问题。"幻觉"是指LLM在没有充分依据的情况下给出的结果与事实或用户要求不符的情况。这种现象在LLM中很常见，作为一个具有高安全要求的系统，在AD过程中对这些问题的容忍度非常低。因此，必须采取措施防止幻觉问题。现有研究表明，LLM的幻觉主要来自数据、训练和推理过程。为了解决这些原因，可以使用检索增强生成（RAG）、改进预训练和调优过程以及设计CoT等方法来改进。此外，为了防止可能的错误结果影响车辆的实际运行，还可以设计保险机制，并使用其他规则来判断LLM输出的合理性。
模型响应时间。实时性能差是目前LLM的缺点之一。无论模型是在线还是离线，LLM的巨大数量都使其响应延迟难以忽视。这在AD的背景下可能会产生严重的后果，特别是对响应时间高度敏感的任务（如控制）。一方面可以通过提高计算能力来解决这个问题，另一方面，在实时性能得到解决之前，LLM可能更适合具有更高延迟容限的任务。
对物理世界缺乏了解。虽然LLM在处理和生成文本方面很强大，但在理解物理世界方面却有一个明显的缺点。他们缺乏与环境互动并从中学习的能力，这意味着他们对重力、动量或物体纹理等物理概念没有直接的理解。他们无法像人类甚至一些机器人那样体验世界。他们的知识完全基于他们接受训练的文本，他们很难根据现实世界的经验或感官输入来更新这些知识。这限制了他们准确建模或预测物理现象的能力，并可能导致在物理世界中产生无意义或不正确的输出。当将这些模型应用于需要深入了解物理世界（如驾驶车辆）的任务时，这是一个重大限制。进一步提高LLM有效捕获和理解现实世界信息的能力非常重要。

其他挑战来自LLM和AD任务的结合。

隐私和安全考虑。自动驾驶汽车使用的数据通常非常敏感，包括特定位置、驾驶习惯等细节。这些数据对于微调AD任务的LLM至关重要。这引发了严重的数据隐私和安全问题。例如，如果法学硕士在无意中包含个人信息的公开数据上接受培训，它可能会学习和复制这些信息，从而导致隐私泄露。确保这些数据得到安全处理，并且模型不会无意中泄露这些信息，这是一个关键的挑战。
语言造成的偏见。我们注意到，现在几乎所有的法学硕士都使用英语作为对话语言，涉及其他语言的实验和研究很少。由于语言具有更强的区域性，我们认为这可能会成为一种潜在的偏见，即使用不同语言时模型的性能无法保持一致。这种偏见可能比基于视觉和其他模式的算法更明显，也可能带来潜在的伦理和道德风险。此外，训练数据隐私和数据集安全等问题也值得关注。我们认为可以进行进一步的研究来解决这些问题。

在LLM应用于现实世界的AD应用之前，需要解决这些挑战，但我们相信，LLM和相关AD解决方案的快速发展将不断为这些挑战提供新的见解。

Perspectives

自AD概念提出以来，研究人员一直在探索实现这一目标的不同途径。针对不同的技术路径，已经进行了许多讨论。因此，我们想回顾一下其中的一些讨论，并就AD的最终解决方案提出一些看法。

端到端 or 模块法自动机爱谁

模块化和端到端方法一直是AD技术讨论的前沿。本文的引言部分总结了这两种路径的一些优缺点。然而，LLMs为这场讨论带来了新的亮点。一方面，LLM的出现模糊了模块化和端到端方法之间的界限。LLM的多功能性使其能够同时完成多项任务，从而打破了传统的模块化界限。例如，LLM执行的许多规划任务直接基于原始传感器输入。从功能上讲，这种实现涵盖了从感知到规划的所有方面，在形式上，它们可以被视为接近端到端的实现。我们认为，随着模型泛化能力的增强，这种模糊可能会成为一种趋势。

另一方面，研究人员已经开始更加关注端到端方法的核心，而不是形式本身。端到端解决方案的优点可以概括为提供统一的信道，减少不同模块之间的信息传输损失。换言之，只要确保信息的完整传递，形式上的差异就不再重要。这也是UniAD"模块化端到端"的起源。这种端到端方法形式的转变也可能为端到端算法的测试和验证等现有问题提供解决方案。

因此，我们可以相信，端到端和模块化在形式上的区别将继续减弱，但考虑到系统的安全性和鲁棒性，一些成熟的模块（如ADAS）将在实际应用中长期保留。

通用人工智能与驾驶智能

最后，我们得出了AD领域长期存在的一个争论：高度先进的AGI对于实现最佳AD是否不可或缺？一方面，正如我们之前提到的，LLMs所拥有的常识和其他知识在执行AD任务中发挥了重要作用。虽然我们还不能确定LLM是否是AGI的重要途径点，但它们在一定程度上满足了人们对AGI的期望。应用自然语言的能力使他们能够有效地从庞大的人类语言语料库中学习，并以易于理解的方式与人类互动。另一方面，人类的驾驶技能相对独立。例如，一位经验丰富的卡车司机可能没有受过高等教育，而AD研究人员可能没有驾照。这意味着通用人工智能不一定是最佳AD的唯一解决方案。

从理想主义的角度来看，构建一个驾驶智能实体似乎更容易。我们距离AGI还有很长的路要走，而随着大模型、世界模型等的成熟，驾驶智能更容易实现。如果我们能够开发专门用于驾驶智能的算法，我们可能能够解决更多与大型模型相关的问题。然而，实现这一目标也带来了许多挑战。首先，最优AD的定义仍然有些模糊。什么样的驾驶策略可以被称为最优，仍然是一个值得进一步研究和讨论的话题。此外，理想化最优驾驶模型本身的实施也存在一些挑战。例如，由于人类认知的局限性，精确定义最佳驾驶所需的知识是具有挑战性的。图2从知识的角度说明了这一点。最佳驾驶所需的一些知识可能还没有一种方法可以总结，例如经验丰富的驾驶员在关键情况下做出的直观判断。

另一方面，我们相信LLMs在不久的将来仍将是AGI类药物的最佳形式之一。因此，LLM驱动的AD仍将是一个值得注意的研究前沿。为了进一步优化LLM在AD任务中的应用，我们认为可以在以下领域进行研究。首先，优化LLM本身的结构，设计更有效的培训方法。与现有模型相比，这些改进可以增强模型在推理、常识等方面的能力。此外，设计更好的结构可以帮助减少微调和本地部署期间的计算功耗。这有助于在智能车辆中部署LLM，改善响应时间长的问题，并降低应用LLM的成本。此外，在AD和LLM的集成中可以进行各种优化。例如，在预训练阶段引入更多与AD相关的数据。现有智能车辆的软件和硬件结构也可以进行优化，以支持LLM的系统级集成应用。

总的来说，这个问题可能在很大程度上取决于人工智能技术的后续发展：通用人工智能的发展能否实现快速突破，或者驾驶智能模型能否更快地实现。我们认为，在相当长的一段时间内，这两种方法都有其优势，将共存或相互备份，就像模块化和端到端解决方案一样。

#3D场景理解最新研究进展

3D场景理解是指利用计算机视觉和机器学习技术来解释和理解三维空间中的环境和对象，通常涉及到从3D数据中识别和分类对象、理解对象之间的关系以及场景的语义信息。传统的3D场景理解包括但不限于：（1）语义分割：识别并分割出图像中每个像素所属的类别（但不同实例的同一类别对象（如多辆汽车）通常无法区分）（2）实例分割：不仅识别图像中每个像素的对象类别，还区分同一类别中不同的实例（3）对象检测（4）视觉定位。3D场景理解广泛应用于自动驾驶、具身智能等领域，比如辅助车辆理解周围的3D环境，进行导航和避障、帮助机器人在复杂环境中自主导航、与环境交互等。

目前对于3D场景理解的最新研究进展如下：（1）部分学者致力于提高3D场景理解模型的计算效率 ，比如改进自注意力机制的计算复杂度。（2）也有大部分学者关注开放词汇的3D场景理解 ，即在没有明确标记数据的情况下，对3D场景进行理解和分类的方法。这与传统的3D场景理解方法不同，传统方法通常依赖于有限的、预先定义好的类别标签，而开放词汇3D场景理解允许模型理解和分类更广泛的对象、属性和场景特征，而无需针对每个新类别进行重新训练。为了实现开放词汇的3D场景理解，学者们致力于将视觉语言模型（如CLIP）的先验知识引入3D场景理解，具体来说需要将3D点云特征与文本特征、图像特征对齐。（3）另外，鉴于目前对于各个单一任务的3D场景理解研究已卓有成就，并且大多数3D场景理解框架仅适用于特定任务，还有学者希望设计一个通用的任务框架来应用在各种3D场景理解的任务上，包括语义分割、实例分割、全景分割、交互分割、开放词汇分割等，具体方法比如通过知识蒸馏将通用框架在某一任务上的知识向其他任务转移，从而实现了任务间的知识共享。

来看下近年来的一些研究。

Swin3D：用于 3D 室内场景理解的预训练 Transformer 主干

3D Transformer网络在处理3D点云数据时面临的高计算复杂度问题 。在传统的3D Transformer网络中，自注意力（self-attention）模块的空间复杂度通常是二次方的，因为对于每个输入点，都需要计算它与所有其他点之间的关系，这意味着随着点云数据量的增加，计算和内存需求会急剧上升。这不仅限制了模型的规模，也限制了其在大规模数据集上的应用。为了解决这一问题，文章提出了一种改进的自注意力机制，能够在稀疏体素（voxels）网格上以线性空间复杂度运行，显著降低了内存和计算成本，使得模型能够处理更大规模的数据集。

高效的自注意力算法 ：文章设计了一种新型的3D自注意力操作符，用于在局部窗口内计算稀疏体素的自注意力。这种算法将自注意力的内存成本从二次降低到线性，相对于窗口内稀疏体素的数量，从而使得模型能够高效地运行而不会牺牲自注意力的准确性。

首先，文章使用稀疏体素（voxels）来表示3D点云数据。体素化是一种将连续的3D空间离散化成网格单元（体素）的方法，其中只有非空的体素才会存储点云数据。这种方法可以有效地减少内存占用，因为只处理非空体素，而不是整个空间。
此外，文章将3D空间划分为局部窗口，并在这些窗口内计算自注意力。这种方法限制了自注意力计算的范围，从而减少了计算量和内存需求。
文章提出的新型自注意力操作符通过优化计算过程，使得内存需求与窗口内非空体素的数量呈线性增长。这是通过避免存储所有点对之间的注意力权重来实现的，而是直接在计算过程中累加这些权重。

层次化结构：SWIN3D采用了类似Swin Transformer的层次化结构，由多个阶段的SWIN3D块组成，每个阶段处理不同分辨率的体素特征，实现了多尺度特征编码。
上下文相对位置编码（cRPE）：为了捕捉点云信号的不规则性，文章提出了一种泛化的上下文相对位置编码方案。这种编码方案不仅考虑了点的位置信息，还考虑了颜色、法线等其他信号的不规则性，通过将这些信号的相对变化纳入自注意力计算中，进一步提升了网络的性能。

OpenScene：用开放词汇理解3D场景

开放词汇3D场景理解是指能够在没有明确标记数据的情况下，对3D场景进行理解和分类的方法。这与传统的3D场景理解方法不同，传统方法通常依赖于有限的、预先定义好的类别标签，并且需要大量的标记3D数据来训练模型，以便模型能够在特定任务上表现出色。这种方法的难点在于：（1）数据标记成本高（2）泛化能力有限（3）任务特定性强。开放词汇3D场景理解旨在解决这些限制，它允许模型理解和分类更广泛的对象、属性和场景特征，而无需针对每个新类别进行重新训练。

文章提出的模型架构OpenScene，是一种零样本学习方法，**它利用了大规模预训练的文本-图像嵌入模型（如CLIP）来增强3D场景理解的能力。模型将3D点的特征与文本和图像像素在CLIP特征空间中共同嵌入。**这意味着3D点的特征不仅与视觉信息相关联，还与语言概念对齐，从而允许使用文本查询来探索3D场景。模型具体通过以下步骤将3D点的特征与视觉特征和语言特征的对齐：

图像特征提取及2D-3D配对 ：首先，对于每个RGB图像，使用一个预训练的2D视觉-语言分割模型（如OpenSeg或LSeg）来计算每个像素的嵌入特征。这些特征被用来表示图像中的视觉信息。接着，对于3D点云中的每个3D表面点，通过相机的内参和外参矩阵将其投影回对应的2D图像平面上。这个步骤确保了每个3D点都能找到它在2D图像中的对应像素。这样，每个3D点都获得了一个融合了多个视角下视觉信息的特征向量。
3D网络蒸馏 ：尽管可以直接使用融合的2D特征进行语言驱动的3D场景理解，但为了提高鲁棒性并处理只有3D点云数据的情况，文章提出了一个3D网络（如MinkowskiNet），它只使用3D点的位置信息作为输入，并训练这个网络来复现融合的2D特征。通过最小化3D网络输出和融合的2D特征之间的差异，3D网络学习到了与2D特征对齐的特征表示。
2D-3D特征集成 ：为了结合2D图像特征和3D几何特征的优势，文章提出了一个集成方法。通过计算每个3D点的2D融合特征和3D蒸馏特征与一组文本提示的相似度，选择与文本提示最相似的特征作为最终的集成特征。

由于CLIP模型是在大规模的图像和文本数据上预训练的，它能够捕捉到比传统对象类别标签更丰富的概念，包括物理属性、材料、功能等。OpenScene利用这一点，允许用户输入任意文本查询，并在3D场景中找到与这些查询匹配的部分。

CLIP2Scene：通过CLIP实现标签高效的3D场景理解

类似于上文，CLIP2Scene也是应用 CLIP 来帮助学习 3D 场景理解，将CLIP知识从2D图像-文本预训练模型转移到3D点云网络。CLIP2Scene的框架通过语义和时空一致性正则化来预训练3D点云网络，使得3D点云特征能够与CLIP的视觉和文本特征对齐。下面是具体的对齐方法：

语义一致性正则化（Semantic Consistency Regularization） ：利用CLIP的文本语义来选择正样本和负样本 。具体来说，通过将类别名称放入预先定义的模板中，使用CLIP的文本编码器生成文本嵌入（text embeddings），这些嵌入包含了对应类别的语义信息。然后，将这些文本嵌入与3D点云特征进行对比学习。通过对比损失函数，拉近具有相同语义的点云特征和文本嵌入之间的距离，同时推远不同语义的点云特征和文本嵌入，从而使得3D网络学习到的特征能够与CLIP的文本语义对齐。
时空一致性正则化（Spatial-Temporal Consistency Regularization） ：此外，还将点云数据与对应的图像数据进行校准，建立图像像素特征与点云特征之间的对应关系。为了使多扫描点云具有时间一致性，即在连续时间帧内捕获的点云数据具有空间和时间上的连贯性，在正则化过程中，强制使得同一空间位置和时间戳内的点云特征与图像像素特征保持一致。这通过计算点云特征和对应图像像素特征之间的相似度，并使用损失函数来最小化它们之间的差异来实现。

通过上述两个正则化策略，CLIP2Scene框架能够将3D点云特征与CLIP的丰富视觉和文本信息有效地结合起来，从而提高3D场景理解的性能。这种跨模态的对比学习方法不仅使得3D网络能够进行零样本（annotation-free）的语义分割，而且在有少量标注数据进行微调（fine-tuning）时也能显著提高性能。

PLA：语言驱动的开放词汇3D场景理解

提出了一种名为PLA（Point-Language Association）的方法，也是希望利用视觉语言模型辅助3D特征与文本特征对齐，实现开放词汇3D场景理解。具体如下：

首先，从3D场景中获取多个视角的图像。这些图像通常由围绕3D场景的不同位置的相机拍摄得到，能够提供场景的全面视图。利用3D场景和这些多视图图像之间的几何关系，例如相机的内参和外参，以及3D点与2D图像之间的投影关系。这些几何约束确保了从不同视角观察到的同一物体在3D空间中的位置是一致的。
构建分层的3D-字幕对：然后文章使用一个预训练的视觉语言基础模型（具体为GPT-ViT2）来为3D场景的多视图图像添加字幕，提供与3D场景相关的语义丰富的描述。文章设计了分层的3D字幕对，包括场景级（将整个3D场景与一个汇总的字幕相关联）、视图级（将每个视角下的3D点云与对应图像的字幕相关联）和实体级（通过分析相邻视图级点集的差异和交集，构建与特定实体（如单个物体实例）相关的字幕）。这些层次化的字幕对利用3D场景和多视图图像之间的几何约束，从而在不同的空间尺度上建立3D点云与文本之间的关联。
3D点云特征与文本特征对齐：最后，通过对比学习的方法，使得3D点云的特征与相应文本描述的特征在特征空间中相互靠近，从而学习到能够反映文本描述内容的3D特征表示。

这种方法的优势在于，它不仅能够利用丰富的文本信息来增强3D数据的理解，还能够处理不同尺度和粒度的3D场景内容，从而提高模型在开放词汇3D场景理解任务中的性能和泛化能力。

UniSeg3D：三维场景理解的统一框架

以往的大多数 3D 场景分割方法都专门用于特定任务，因此将他们对 3D 场景的理解限制在特定于任务的视角上。这篇文章提出了 UniSeg3D，它使用一个统一的Transformer作为核心处理单元，这个Transformer接收统一的输入表示，并为所有任务生成特征。这种设计允许模型在不同任务之间共享知识，提高了模型的泛化能力和效率。

首先，为了处理不同的任务，UniSeg3D引入了多种类型的输入查询（queries）：

通用分割任务（如语义分割、实例分割、全景分割）使用点云作为输入，通过3D U-Net提取特征。
交互分割任务通过视觉提示（如点击或画框）来指定感兴趣的区域。
引用分割任务使用文本描述来指定分割目标。
开放词汇分割任务处理未在训练集中出现的类别。

然后，UniSeg3D利用知识蒸馏从交互分割任务（由于其视觉提示的可靠性，通常具有较高的分割性能）向其他任务转移知识。具体来说，使用匈牙利算法（Hungarian algorithm）将交互分割任务的预测结果与真实标签进行匹配，从而得到正样本。然后，在交互分割任务的预测掩码中，选择具有最高置信度（例如，前k%）的区域作为学习区域。在这些学习区域内，计算交互分割任务的预测掩码与"学生"任务的预测掩码之间的损失。这个损失通过比较匹配区域内的预测掩码来衡量，使用二元交叉熵损失（Binary Cross-Entropy, BCE）来实现。通过最小化这个损失，将交互分割任务的知识转移到其他任务中，从而提高这些任务的性能。
此外，为了将文本描述与3D场景中的相应对象或区域关联起来 ，设计了一种基于排名的对比学习方法。具体来说，首先使用Transformer架构来获取点云特征、使用预训练的CLIP模型来获取文本特征。然后通过一个对比学习框架匹配点云特征和文本特征。为了进一步优化对比学习的效果，UniSeg3D引入了排名规则。这个规则确保在对比学习过程中，与特定文本描述最相关的点云特征在相似度排序中位于最前面。通过这种方式，模型能够更好地理解和处理引用分割任务中的文本描述。

参考文献：
$1\] Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding https://arxiv.org/abs/2304.06906 \[2\] OpenScene: 3D Scene Understanding with Open Vocabularies https://openaccess.thecvf.com/content/CVPR2023/papers/Peng_OpenScene_3D_Scene_Understanding_With_Open_Vocabularies_CVPR_2023_paper.pdf \[3\] CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [https://arxiv.org/abs/2301.04926](https://arxiv.org/abs/2301.04926 "https://arxiv.org/abs/2301.04926")\[4\] PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [https://openaccess.thecvf.com/content/CVPR2023/papers/Ding_PLA_Language-Driven_Open-Vocabulary_3D_Scene_Understanding_CVPR_2023_paper.pdf](https://openaccess.thecvf.com/content/CVPR2023/papers/Ding_PLA_Language-Driven_Open-Vocabulary_3D_Scene_Understanding_CVPR_2023_paper.pdf "https://openaccess.thecvf.com/content/CVPR2023/papers/Ding_PLA_Language-Driven_Open-Vocabulary_3D_Scene_Understanding_CVPR_2023_paper.pdf")\[5\] A Unified Framework for 3D Scene Understanding [https://arxiv.org/abs/2407.03263](https://arxiv.org/abs/2407.03263 "https://arxiv.org/abs/2407.03263")$

#GS-Net

突破泛化和实用壁垒！首个跨场景泛化即插即用3DGS算法~

神经辐射场（Neural Radiance Fields，NeRF）在该领域取得了显著的进展，通过高保真渲染，不需要明确建模3D场景、纹理或光照。然而，NeRF的随机采样和体积渲染过程计算量大，严重影响了其性能，导致渲染速度较慢。为了解决实时神经渲染的需求，提出了3D高斯散射（3DGS）方法，该方法通过高斯椭球来表示场景，并利用快速光栅化技术生成高质量图像。

3DGS的一些痛点：

通常只处理单个场景，并通过运动结构（Structure from Motion，SfM）技术从稀疏但几何精确的点云中初始化高斯椭球参数，随后使用光度损失函数进行迭代优化和密度控制。这种方法需要针对每个场景构建单独的模型，缺乏跨场景泛化能力。

对从SfM点云启发式初始化的高斯椭球高度敏感。如果稀疏点云无法捕捉场景细节，这种依赖性会阻碍进一步优化并限制其实用性。

本文介绍的GS-Net[1]是一个可泛化的即插即用的3DGS模块。该模块使用稀疏的点云作为输入，生成更加稠密的高斯椭球，允许在不同场景之间进行训练和测试，克服了传统3DGS的场景边界限制。作为一个即插即用的模块，GS-Net具有很强的实用性和兼容性，适用于所有3DGS框架。为了全面评估GS-Net在自动驾驶场景中的性能，创建了CARLA-NVS数据集，支持从12个摄像机视点进行训练和评估。

主要贡献如下：

提出了GS-Net，这是一个可泛化的即插即用3DGS模块，旨在从稀疏的SfM点云生成稠密的初始高斯椭球及其参数。据作者所知，这是第一个能够直接从稀疏点云中学习高斯椭球的网络。
GS-Net作为即插即用的模块，具有很强的实用性和兼容性，适用于3DGS框架及其衍生模型。
开发了CARLA-NVS数据集，这是首个提供12个稠密视图图像的数据集，能够全面评估场景重建和渲染质量，并支持自动驾驶感知任务。

具体方法

在原始的3D高斯散射（3DGS）方法中，高斯椭球的初始属性是通过稀疏的运动结构（SfM）点云启发式生成的。这种场景特定的初始化策略限制了方法的泛化能力，并且忽略了不同场景的独特特征。此外，它难以在纹理不足的区域捕捉细节，由于输入的稀疏性，导致模型在处理新视点或远距离场景时的鲁棒性降低。

如图1所示，GS-Net以稀疏点云为输入，增强了跨场景的泛化能力和鲁棒性。GS-Net根据不同场景的具体特征生成预测的稠密高斯椭球，能够更好地表示场景特征并减少随机性。

初步概念

3D高斯散射（3DGS）方法使用创新的高斯原语来表示场景。一组高斯原语表示为：

其中， µ 表示其均值向量，是协方差矩阵，分解为旋转矩阵和缩放矩阵，即。此外，使用球谐函数（SH）计算的不透明度和颜色也用于图像渲染。每个像素

高斯原语的质量直接影响场景重建的效果。然而，在3DGS的初始阶段，如果点云过于稀疏，由于监督不足，椭球的优化可能会产生伪影。我们的实验表明，当初始椭球的质量较高时，3DGS的最终渲染性能可以显著提高。此外，实现不同场景的通用初始化对于提高效率至关重要。

初始参数定义

GS-Net中使用的基本参数，包括稀疏点云和预测椭球数组，以及密集点云和密集椭球数组。前者是模型的输入和输出，而后者用于构建训练的真实数据。

稀疏的SfM点云: 通过运动结构技术获得的点云，其信息包含，其中表示点的三维坐标 (x, y, z)，而
密集点云: 通过多视图立体技术获得的密集点云，表示为。
密集椭球数组: 上述密集点云输入到3DGS中生成密集椭球数组。与稀疏点云相比，这种输入可以生成质量更高的密集椭球数组，用于构建网络训练的真实数据。我们将密集椭球数组表示为。
预测椭球数组: 经过网络预测后，我们获得预测的椭球数组，表示为。我们的网络将输入的密度增加了一个系数，在我们的数据集中，我们选择了来实现最佳的密集化。每个预测椭球具有14维属性：。

网络模型

GS-Net应用于生成更高质量的初始高斯椭球，取代原始3DGS的过程并增强跨场景的泛化能力。如图1所示，模型的输入是通过COLMAP重建的稀疏点云，输出是预测的密集椭球数组。模型的各个组件，包括编码器、解码器以及应用于不同高斯原语的激活函数。

GS-Net编码模块: 编码模块包括特征提取和特征融合，用于分别捕获点的基本特征和局部特征。首先，特征提取模块将点的位置 µ 和颜色
解码器: 解码器通过三层全连接层处理编码器的输出，逐步将维度从128降至14维，匹配预测椭球数组所需的维度。
参数正则化: 在获得最终输出之前，我们对预测椭球数组中的每组参数应用各种正则化方法以提高模型预测的准确性和收敛性。例如，对不透明度

数据集 CARLA-NVS

为了全面评估场景重建质量以及GS-Net在自动驾驶场景中的表现，使用CARLA模拟器构建了一个名为CARLA Autonomous Vehicle Scene Dataset with Novel Viewpoints (CARLA-NVS) 的自定义数据集，该数据集包含了新的视点。目前开源的自动驾驶数据集由于车辆上的摄像头位置固定，限制了从未见过的视点进行场景重建的评估。因此，目标是生成一个综合了动态和静态场景，具有多视点和多传感器的全面数据集。这个数据集提供了新的自由视点，更适合验证模型在新视点合成中的性能。

场景设置

该数据集涵盖了各种典型的驾驶环境，包括城市街道、乡村道路和高速公路。CARLA-NVS中的动态场景是通过CARLA的路径规划系统生成的，包含移动车辆、行人和自行车，模拟复杂的交通状况。静态场景只包含停泊的车辆和固定基础设施（如路标、树木和建筑物），用于评估静态条件下的重建质量。此外，所有数据都在两种天气条件下（晴天和阴天）收集，进一步增强了数据集的多样性。

传感器配置

为了确保CARLA-NVS数据集的多样性和丰富性，在场景中使用了以下类型的传感器来收集多种数据：

RGB摄像机传感器：以1920x1080的分辨率捕捉环境的彩色图像。
深度摄像机传感器：提供传感器与场景中物体之间的深度信息，分辨率为1920x1080。
语义分割摄像机传感器：为场景中的每个像素生成语义标签，分辨率为1920x1080。
LiDAR传感器：提供360度的LiDAR传感器，捕获每秒生成3百万点的3D点云，最大探测范围为200米，具有128个扫描通道。

如图3所示，在传统传感器设置中，传感器位于特定视角，如1、3、5、7、9和11，视角之间存在间隙。为了改进数据集中的覆盖范围，我们在位置2、4、6、8、10和12增加了传感器。因此，车辆配备了12个RGB、深度和语义分割摄像机，每个摄像机的视场角为90度，均匀分布在30度的间隔处。此外，车辆顶部中心还安装了一个LiDAR传感器，以增强3D环境映射。总体而言，这种配置提供了360度的覆盖，能够从未见过的视点进行准确的评估。值得注意的是，该数据集不仅用于3DGS中的新视点评估，还用于多个自动驾驶任务，如鸟瞰图感知和占用检测。

基于以上定义，生成了20个场景。具体而言，在每个场景中，所有传感器的数据同时以10 Hz的频率收集，持续10秒（大约100米的街道驾驶），每个传感器生成100帧数据。每个场景生成的数据包括1200张RGB图像、1200张深度图像、1200张语义分割图像和3000万LiDAR点云，如图2所示。收集的数据经过预处理以确保统一性和可用性。所有图像数据都以PNG格式存储，点云数据以PCD格式存储。每帧数据都带有时间戳，以确保在后续分析中的精确对齐。

实验效果

总结一下

GS-Net是一种可泛化的即插即用3DGS模块，能够在自动驾驶场景中实现跨场景的渲染，具有强大的特征提取和几何表示能力。作为一种即插即用的解决方案，GS-Net展示了与3DGS及其衍生模型的卓越实用性和兼容性。为了评估其性能，开发了CARLA-NVS数据集，支持12个摄像机视点。实验结果表明，GS-Net显著提升了3DGS在常规和新视点下的渲染质量，同时保持了相当的渲染速度。

未来工作：优化泛化能力和精度，并计划在论文被接受后发布CARLA-NVS数据集。

#智能机器人公司汇总

国内具身机器人公司

有鹿机器人

达摩院背景的陈俊波老师创办，主要产品：具身智能+轮式清扫机器人。

官网：https://www.udeerai.com/ai130****

云深处科技

云深是具身智能创新技术与应用引领者，在中国率先实现四足机器人全自主巡检变电站。云深处自主研发的"绝影"系列机器人在电站、工厂、管廊巡检、以及应急救援、消防侦查、未来科研等多种应用环境中落地应用，曾在地下管廊服务亚运，参与新加坡国家电网项目，实战参演应急使命抗震救灾、燃爆侦察实战演习。目前，云深处科技正同国家电网、南方电网、宝钢股份、福禄克等行业巨头开展长期深度合作。

公司核心团队为来自浙江大学、上海交通大学、北京理工大学、武汉大学、电子科技大学、中国科学院大学、纽约大学、伊利诺伊大学香槟分校、佐治亚理工学院等国内外知名高校。

公司官网：https://deeprobotics.cn/robot/index/index.html

智元机器人

华为天才少年智晖君创办，极短的时间完成了多轮融资，前景满满！并在23年8月发布第一款产品远征A1，目前由多款A2升级产品。

官网链接：https://www.zhiyuan-robot.com/****

宇树科技

国内领先的具身智能+机器人公司，由王兴兴创办，主要研发四足机器人+仿人机器人，也关注机械臂和激光雷达。已经衍生出H1、G1系列双足机器人产品，以及Aliengo、B1、B2等工业四足机器人产品。

官网：https://www.unitree.com/cn/

优必选

优必选科技成立于2012年3月，是人形机器人的领导者和智能服务机器人的领航企业。2023年12月29日，优必选于香港交易所主板挂牌上市。优必选是全球少数具备人形机器人全栈式技术能力的公司，包括行业领先的机器人技术（机器人运动规划和控制技术、伺服驱动器）、人工智能技术（计算机视觉和语音交互）、机器人与人工智能融合技术（SLAM及自主技术、视觉伺服操作和人机交互），以及机器人操作系统应用框架（ROSA）。

官网链接：https://www.ubtrobot.com/cn/

傅里叶机器人

医疗+具身智能，关注康复方案，傅里叶成立于2015年，目前已经推出GR等系列多款产品。

官网链接：https://www.fftai.cn/about-us

开普勒机器人

开普勒专注于通用人形机器人研发、生产及应用生态，面向智能制造、仓储物流、智慧巡检、安保巡逻、高危作业、商业服务、科研教育等行业提供自动智能化解决方案。

官网链接：https://www.gotokepler.com/home

追觅

关注机器人和扫地机、洗地机等产品，行业积累深厚。

官网链接：https://mall.dreame.tech/

小米机器人

小米CyberOne和CyberDog，作为国内第一家正式宣布自研人形机器人的国内大厂，并早于特斯拉优先推出全尺寸人形机器人产品，「小米」一众被认为是国内人形机器人赛道领先国外的希望，CyberOne一经发布更是登上一众新闻和行业公众号头条。

达闼机器人

达闼成立于2015年，是智能机器人领域的独角兽头部企业，全球领先的云端机器人创造者、制造商和运营商。旨在通过持续引领云端机器人前沿技术研究与产业化应用，让云端机器人走进千家万户，帮助人类完成4D（如枯燥、肮脏、危险、甚至困难的）工作。

现已推出各类清洁、巡检、机械臂、人形机器人产品。

官网链接：https://www.dataarobotics.com/zh

星海图

清华团队创办！星海图（苏州）人工智能科技有限公司（以下简称"星海图"）成立于2023年9月，是一家专注于打造"一脑多形"具身智能机器人的人工智能公司。荣登2024中国最具价值AGI（通用人工智能）创新机构Top50榜单。

千寻智能

千寻智能（杭州）科技有限公司是一家具身智能机器人研发商，为了实现机器人的交互性和泛化性。千寻智能的核心壁垒之一是，构建了高泛化、高通用机器人大脑。大脑中运用了视觉语言模型ViLa和部件约束模型CoPa模型，作为具身智能机器人底层的多模态大模型。

银河通用

创始人王鹤，斯坦福大学博士，北京大学前沿计算研究中心助理教授、博士生导师，北京智源人工智能研究院具身大模型负责人。银河是一家专注于具身智能和机器人领域的创新企业，致力于为全球提供智能的通用服务机器人产品，在工业、商业领域和家庭环境中为人类提供服务。

星尘智能

星尘智能（Astribot）致力于让数十亿人拥有AI机器人助理。公司研发可落地的新一代AI机器人，能像人一样学习、思考和劳动，会使用人的工具和设备、帮人完成枯燥、困难或危险的任务，甚至能适应环境和变化，引领"AI+机器人"技术革新。

2024年4月，公司耗时一年成功自研出"最接近人类操作性能"的AI机器人S1，通过模仿学习，能以媲美成年人的操作速度和灵活度，执行多项对人有用的复杂任务。S1机器人已接入大模型测试，并预计在2024年内完成商业化。

星尘智能创始人来杰，曾任职于腾讯机器人实验室（1号员工）、百度"小度机器人"（团队负责人）、香港理工大学等，他主导研发了腾讯轮腿式机器人Ollie及多款新型机器人。团队背景包括腾讯、谷歌、优必选、百度和华为等前沿科技公司。

公司官网：https://astribot.com/

逐际动力

逐际动力LimX Dynamics是一家通用机器人研发制造商，聚焦全尺寸通用人形机器人，并衍生了包括双足机器人、四轮足机器人等创新产品。逐际动力致力于具身智能的颠覆性创新，释放AGI在物理世界的泛化能力，以全自研核心的软硬件技术，结合领先的人形基础模型，打造通用移动操作平台与具身智能软件工具，服务创新者与集成商，推动具身智能在科研、制造、商业、家庭等领域的广泛应用。

公司官网：https://limx.cn/

穹彻智能

2024世界人工智能大会期间，穹彻智能在现场开放环境中进行了AnySkill通用技能系列的全任务真机演示，包括地面清洁、桌面整理、柔性物体操作和食材处理等。

艾欧智能

具身智能机器人基础场景数据和解决方案提供商，公司于23 年5月成立，创始团队毕业于东京大学，北京大学，苏黎世联邦理工大学，哥伦比亚大学，德岛大学，曾在腾讯机器人X 实验室、鹏行智能机器人等行业知名公司就职，具有丰富的机器人和模型研发经验。IO致力于通过首批百万级大规模人类数据的采集和开源，推动具身智能行业的快速发展。

星动纪元

星动纪元科技由清华大学交叉信息研究院孵化，研发具身智能以及通用人形机器人技术和产品的新兴科技公司。星动纪元聚焦于通用人工智能(AGI)前沿应用，致力于研发适应宽领域、多情景、高智能的通用人形机器人，努力实现智能机器人走进千家万户，融入万家灯火的美好愿景。

星动纪元团队成员来自于清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业，研发人员占比超过80%。

公司官网：https://www.robotera.com/sy

加速进化

「加速进化」创始人兼CEO程昊本硕均毕业于清华大学，此前曾在互联网大厂有近十年的大规模产品研发经历；公司首席科学家赵国明为清华大学自动化系研究员、机器人控制实验室和无人系统中心类脑机器人中心主任，在过去20年中专注于足式仿生、类脑机器人及系统研究。

「加速进化」为开发者提供的"Booster T1"，正是一款双足人形机器人，身高1.1m，体重29kg，在运动过程中表现出充足的运动能力和稳定性。

众擎机器人

专注于具身智能通用机器人的研发与创新，致力于将前沿的人工智能技术转化为实际可应用的机器人产品，已推出推出低价双足机器人SA01。

PNDbotics

PNDbotics致力于构建一个高效、端到端的人形机器人平台，以简化AI机器人的开发、模拟和部署流程，并进一步推动机器人学和具身AI的突破。

公司官网：https://www.pndbotics.com/****

国外机器人公司

Skild AI

一家位于匹兹堡的具身智能领域的初创公司，由两位前卡内基梅隆大学教授阿比纳夫·古普塔（Abhinav Gupta）和迪帕克·帕塔克（Deepak Pathak）在2023年5月创办，团队成员多来自Meta、特斯拉、英伟达等公司以及卡内基梅隆大学、斯坦福大学等名校。

Skild AI的长期目标是"开发扎根于物理世界的通用人工智能（AGI），以打造一个通用、灵活、智能的人形机器人产品"。

官网：https://www.skild.ai/

波士顿动力

国际双足、四足机器人领导者，衍生出一系列优秀的机器人产品，大狗、Atlas、SpotMini、Handle等。

公司官网：https://bostondynamics.com/

Figure AI

Figure总部位于加州桑尼维尔。致力于打造多用途人形机器人。该公司创造了一种人形机器人，其目标是开发能够在不同环境中工作并处理各种任务的通用型人形机器人，从仓储到零售都可以应用，以解决劳动力短缺、不受欢迎或不安全的工作等问题，并协助全球供应链运营。

公司官网：https://www.figure.ai/

1x Technologies

1X Technologies最初名为Halodi Robotics，于2014年在挪威首都奥斯陆创立。该公司的CEO Bernt Øyvind Børnich创建了这家公司，旨在实现一种新的解决方案：可以与人类并肩工作的通用机器人。公司的愿景是满足世界劳动力需求。

公司官网：https://www.1x.tech/

#ViewCrafter

一张图搞定3D视效！北大提出：主打一个可控生成~

来自北大、港中文、腾讯等机构的研究人员提出ViewCrafter，可以从根据单张或稀疏输入图像生成精确相机可控的新视角视频，并支持场景级图生3D、文生3D和稀疏视角重建等应用。

论文标题：

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

论文链接：

https://arxiv.org/abs/2409.02048

代码链接：

https://github.com/Drexubery/ViewCrafter

项目主页：

https://drexubery.github.io/ViewCrafter/

Huggingface Demo：

https://huggingface.co/spaces/Doubiiu/ViewCrafter

一、研究动机

尽管NeRF和3D-GS等新视角生成方法可以生成高保真度的新视角，但他们依赖于密集的多视角训练数据，且不具备泛化能力，这限制了它们在训练资源受限场景下的应用。在实际应用中，一个更普适的问题场景是训练一个可范化的模型，在不需要训练或微调的情况下从稀疏视角图像甚至单张输入图像中生成新视角。解决这个问题具有相当大的挑战性，因为它需要训练的模型对3D物理世界有全面的理解。为了实现这个目标，我们提出ViewCrafter，一个能够对任意输入图像实现相机轨迹精确可控的新视角视频生成的视频扩散模型，并基于ViewCrafter探索了图像生成3D、文本生成3D和稀疏视角重建等应用。

，时长00:03

相机轨迹可控的视频生成，单视角输入

，时长00:03

相机轨迹可控的视频生成，2视角输入。

，时长00:09

文生3D

，时长00:10

单图生3D二、方法介绍2.1 点云表征

DUSt3R等快速多视图/单视图stereo技术的发展使得从单张或稀疏图像中快速重建点云表征成为可能。点云表征能够提供3D场景的粗略信息，支持精确的相机位置控制以实现自由视角渲染。然而，由于点云的表示能力较弱，加之极其稀疏的输入图像只能提供有限的3D线索，重建出的点云存在大面积的遮挡和缺失区域，并可能面临几何形变和点云噪声。这些问题限制了其在新视角合成上的应用。

点云渲染结果

2.2 视频扩散模型

在大规模视频数据集上训练的视频扩散模型能够深入理解3D物理世界，支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。然而，现有的视频扩散模型缺乏显式的场景3D信息，因此在视频生成过程中难以实现精确的相机视角控制。

2.3 ViewCrafter：基于点云先验的可控视角视频生成

我们提出将视频扩散模型的生成能力与点云表征提供的显式3D先验相结合，以实现相机精准可控的任意场景高保真度新视角视频生成。

方法流程图

如图所示, 给定单张或稀疏视角输入图像，我们首先使用快速多视图stereo方法构建其点云表征，以实现精准地移动相机进行自由视角渲染。随后，为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影，我们训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器，在粗糙的点云渲染结果的基础上进一步生成具有高保真度和3D一致性的新视角。

视频扩散模型主要由三个模块组成。我们采用一对继承自Stable Diffusion的VAE编码器和解码器对点云渲染结果进行压缩，以降低模型开销。此外，我们利用CLIP图像编码器处理参考图像，以使得模型获得对输入图像的语义关系的理解。模型的核心是一个去噪U-Net,他接受压缩后的点云渲染结果和噪声作为输入，将其逐步去噪成具有高保真度的新视角。在训练过程中，我们只训练去噪U-Net的权重，冻结其他模块的参数，并在RealEstate10K和DL3DV这两个大规模多视角数据集上进行训练。

在推理过程中，通过结合点云提供的显式3D信息以及视频扩散模型的强大生成能力，我们的方法能够在视频生成过程中实现6自由度的精准相机位姿控制，并生成高保真度、一致性强的新视角视频。

2.4 应用：稀疏视角3D高斯重建，图生3D和文生3D

基于ViewCrafter和我们提出的迭代式新视角生成算法,我们可以从单张图像/稀疏视角甚至一段文字描述中进行3D高斯重建，以支持实时渲染和沉浸式3D体验。

三、对比实验

3.1 新视角生成

我们在Tanks-and-Temples,CO3D, RealEstate10K这三个真实世界数据集上与SOTA方法进行了定量和定性比较，实验结果证明我们的方法在相机位姿控制的精准程度，以及生成新视角的视觉质量上都大幅超过对比方法

3.2 场景重建

我们在Tanks-and-Temples数据集上与稀疏视角重建领域的SOTA方法进行了定量和定性比较，实验结果证明我们的方法在3D高斯重建渲染出的新视角的视觉质量上大幅超过对比方法

四、消融实验4.1 利用点云先验作为视频扩散模型控制信号的有效性

一些同期工作采用普吕克坐标作为视频生成模型的控制信号，以实现相机可控的新视角生成。作为对比，为了验证点云控制信号的优越性，我们训练了一个以普吕克坐标为控制信号的新视角生成模型，并进行控制变量实验，保证除了控制信号外其他模型结构与ViewCrafter一致。两个模型在新视角生成任务上对比结果如下所示：

实验结果证明，不管是在新视角生成质量还是在相机控制的精准程度上，我们使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。

4.2 模型对粗糙点云的鲁棒性

如图所示，对于作为控制信号的点云具有严重几何形变的情况，我们的模型依然能够有效地进行几何纠错和空洞修补。这证明了我们的方法对点云控制信号的鲁棒性。

，时长00:03

点云渲染和生成结果对比

五、未来计划

我们验证了ViewCrafter对于静态场景的强大新视角生成能力。在未来的工作中，我们将探索和单目视频深度估计方法结合，实现单目动态视频的新视角生成和4D重建。

#RCBEVDet++

迈向高精度雷达-摄像头融合3D感知网络！

感知周围环境是自动驾驶的基本任务。为了获得高度精确和鲁棒的感知结果，现代自动驾驶系统通常采用多模态传感器，如LiDAR、多视角摄像头和毫米波雷达，来收集全面的环境数据。

在这些传感器中，雷达与摄像头多模态感知系统尤其受到青睐，因为其具有出色的传感能力和成本效益。然而，毫米波雷达与多视角摄像头传感器之间的巨大模态差异给从这两种传感器融合信息带来了显著的挑战。

为了解决这个问题，本文提出了RGEVDet，一种雷达与摄像头3D目标检测框架。具体而言，RGEVDet基于现有的基于相机的3D目标检测模型，辅以专门设计的雷达特征提取器RadarBEVNet和雷达与摄像头交叉注意力多层融合（CAMF）模块。

首先，RadarBEVNet使用双流雷达 Backbone 网络和Radar Cross Section（RCS）感知的BEV编码器，将稀疏的雷达点编码为密集的鸟瞰视图（BEV）特征。其次，CAMF模块利用变形注意力机制将雷达和摄像头的BEV特征对齐，并采用通道和空间融合层来融合这些多模态特征。

为了进一步提高RGEVDet的性能，作者提出了RGEVDet++，该方法在稀疏融合的CAMF上进行改进，支持基于 Query 的多视角摄像头感知模型，并适应于更广泛的感知任务。

在nuScenes数据集上的大量实验表明，作者的方法与现有的基于相机的3D感知模型无缝集成，并在各种感知任务上提高它们的性能。

此外，作者的方法在3D目标检测、BEV语义分割和3D多目标跟踪任务中实现了最先进的重叠雷达与摄像头融合结果。值得一提的是，利用ViT-L作为图像 Backbone ，RGEVDet++在无需测试时间增强或模型集成的情况下，实现了3D目标检测的72.73 NDS和67.34 mAP。

源代码和模型将在https://github.com/VDiGRU/ROGEVDet。

1 Introduction

自动驾驶旨在通过开发无需人工干预的系统来提高交通的安全性、效率和便利性[2, 3]。对于这些系统来说，的一个重要挑战是像人类一样全面感知周围环境，这对于精确轨迹预测和运动规划至关重要。为了实现这一点，现代自动驾驶系统主要采用三种传感器，例如多视图摄像头、毫米波雷达和激光雷达，以收集周围环境的信息。

在这些类型的传感器中，激光雷达传感器提供详细的几何信息，显著提高了感知过程，导致最佳性能[4]。然而，高质量激光雷达传感器的价格昂贵，增加了制造成本。相比之下，多视图摄像头和毫米波雷达传感器为制造商和用户提供了更经济的选择。与激光雷达相比，多视图摄像头捕获了复杂的细节，如颜色和纹理，提供了高分辨率的语义信息，而毫米波雷达在测距和速度估计方面具有优势，在多种天气和照明条件下都能可靠工作[5] [6]。此外，4D毫米波雷达技术的进步逐渐克服了稀疏雷达点的限制，成为潜在的替代方案[8]。尽管这些具有优势，但激光雷达与摄像头或雷达基于的感知模型之间仍存在明显的性能差距。桥接这个差距的实用且有效的策略是将毫米波雷达与多视图摄像头集成在一起，这可以互相补充，从而实现更全面和可靠的环境感知。

为了融合雷达和图像数据，近年来[9, 10]主要采用将多视图图像特征和雷达特征投影到鸟瞰视角（BEV）的BEVFusion Pipeline [4]。然而，像BEVFusion所采用的简单融合技术（如 ConCat 或求和）无法解决多视图图像和雷达输入之间的空间对齐问题。此外，大多数雷达-摄像头融合方法[12, 13, 14]仍使用原本用于激光雷达点（如PointPillars）的编码器来提取雷达特征。虽然这些方法可以产生令人称赞的结果，但它们所使用的特定激光雷达编码器并没有考虑到雷达的独特特性，如雷达横截面（RCS），导致性能不佳。

在本文中，作者提出了一种名为RGEVDet的新框架，用于将雷达和相机的特征在BEV空间中有效地融合在一起，进行3D目标检测任务。针对雷达输入的独特特性，作者专门设计了一个名为RadarBEVNet的方案，以实现高效的雷达BEV特征提取。具体而言，RadarBEVNet首先通过双流雷达解码器将雷达输入编码为不同的点对基和Transformer基表示。此外，作者还实现了一个注入和提取模块，将这两个表示整合在一起。接下来，这些特征通过RCS感知的散射转换为BEV特征，其中RCS被用作目标大小的先验和分配点特征到BEV空间的任何位置。除了RadarBEVNet之外，RCBEVDet还集成了一个交叉注意力多层融合模块（CAMF），以在BEV空间内实现雷达和相机的特征融合。CAMF使用多模态交叉注意力自适应校正两种BEV特征之间的坐标不匹配，然后应用通道和空间融合层来进一步巩固多模态特征，提高整体检测性能。

为了充分利用RCBEVDet的功能，作者升级了CAMF模块，支持稀疏融合以支持基于 Query 的多视相机的感知模型。此外，作者还扩展了RCBEVDet的功能，包括3D目标检测、BEV语义分割和3D多目标跟踪等更广泛的感知任务。这个增强的框架被称为RCBEVDet++。具体而言，为了适应基于 Query 的多视相机的感知方法，作者用与原始相机BEV特征不同的基于目标3D坐标的相机 Query 进行替换。这开发了一种新的 Query 组件在作者的多模态交叉注意力机制中。接下来，作者进行了一个投影和采样过程，其中，相机目标 Query 被投影到BEV空间，并与相应的雷达特征进行匹配，以形成雷达目标 Query 。然后，作者使用可变形交叉注意力对多模态 Query 进行对齐。最后，调整后的多模态 Query 被 ConCat 并送入一个简单的线性层进行有效的特征融合，从而在扩展的任务范围内提高感知性能。

本文的主要贡献如下：

本文介绍了一种名为RCBEVDet的高度精确和鲁棒的3D目标检测雷达-摄像头融合框架。该框架包括RadarBEVNet用于雷达BEV特征提取和Cross-Attention Multi-layer Fusion Module (CAMF)用于在BEV空间中进行鲁棒雷达-摄像头特征融合。

基于RCBEVDet，作者进一步提出了RCBEVDet++感知框架，该框架扩展了CAMF模块以容纳基于 Query 的多视摄像头感知模型，并充分发挥了RCBEVDet在各种3D感知任务中的全部潜力。

在nuScenes基准测试中，RCBEVDet提高了基于摄像头的3D目标检测器的性能，并针对传感器故障情况展示了鲁棒性。此外，RCBEVDet++进一步增强了基于摄像头的感知模型，在雷达-摄像头多模态3D目标检测、BEV语义分割和3D多目标跟踪任务中实现了最先进的结果。

2 Related WorkCamera-based 3D Perception

三维目标检测、BEV语义分割和三维多目标跟踪是自动驾驶的三个基本感知任务。目前，许多三维多目标跟踪方法通常采用跟踪-通过检测框架，该框架利用三维目标检测的结果来关联物体。这些跟踪方法关注的是物体匹配，而不仅仅是高效处理输入图像。此外，更准确的检测结果可以带来更高的跟踪性能。因此，在这一部分，作者将主要讨论处理多帧多视角摄像头输入的更丰富的三维目标检测和BEV语义分割方法。具体来说，三维目标检测旨在预测三维物体的位置和类别，而语义分割则整合了车辆识别、语义车道地图预测和可行驶区域估计任务。然而，由于三维信息的不足，在三维空间中使用摄像头图像检测物体和分割地图具有挑战性。近年来，许多研究已经为解决这个问题做出了很大的努力，包括从图像中推理深度[21]，利用几何约束和形似先验[22]，设计特定的损失函数[23, 24]，以及探索联合三维检测和重构优化[25]。最近，多视角传感器已成为自动驾驶车辆的流行配置，为提供更全面的环境信息。多视角相机数据集的出现[26, 27]导致了多视角三维目标检测和BEV语义分割方法的发展，可以大致分为基于几何的方法和基于 Transformer 的方法两种。

2.1.1 Geometry-based Methods

基于几何的多视三维目标检测和BEV语义分割主要利用深度预测网络来估计图像的深度分布。这使得可以将从提取的2D图像特征转换为3D相机 Frustum 特征。然后，通过 Voxel 池化等操作在 Voxel 或BEV空间构建特征。

具体而言，Lift-Splat-Shoot（LSS）[28] 首次利用轻量级深度预测网络明确估计每个图像的深度分布和上下文向量。深度和上下文向量的外积决定了沿视角射线在3D空间中每个点上的特征，从而实现了将图像特征有效转换为BEV特征。在 LSS 的基础上，FIERY[38] 引入了一个基于BEV的未来实例预测模型，能够预测动态代理的未来实例及其运动。BEVDet[16] 将视角变换技术从 LSS 扩展到使用BEV特征检测3D物体。此外，BEVDepth[29] 利用 LIDAR 的显式深度信息作为监督来增强深度估计，并将摄像机的外部参数作为深度估计的先验参数。基于 BEVDet，BEVDet4D[30] 在历史帧之间对BEV特征进行空间对齐，显著提高了检测性能。此外，SOLOFusion[39] 提出将高分辨率短期和低分辨率长期特征融合，提高具有长期时间输入的3D检测的推理速度。

2.1.2 Transformer-based Methods

基于Transformer的方法利用注意力机制将预定义的 Query 投影到多个视图图像平面上，使用坐标变换矩阵，并随后更新 Query 特征和多视图图像特征。具体来说，开创性工作DETR3D [31]使用Transformer解码器进行3D目标检测，发展了一种自顶向下框架，并利用一套一套的损失来衡量 GT 值和预测之间的差异。

类似地，CVT [35]引入了一个简单的BEV语义分割基准，该基准使用交叉视图Transformer架构。在这一点之后，BEVformer [17]构建了密集的BEV Query ，并采用了多尺度变形注意力，将多视图图像特征映射到这些密集 Query 。此外，PETR [32]通过将来自3D坐标的显式位置信息生成多视图图像特征。在PETR的基础上，PETRv2 [40]将时间融合跨多个帧集成，并扩展3D位置嵌入，具有时间感知建模。

此外，Sparse4D [41]为每个3D Anchor 点分配和投影多个4D关键点，以生成不同的视图、 aspect ratio 和时间戳特征，然后将这些特征分层融合以提高整体图像特征表示。

Sparse4Dv2 [42]扩展了Sparse4D，采用了更高效的时间融合模块，并引入了摄像机参数编码和密集深度监督。最近，StreamPETR [34]利用稀疏目标 Query 作为中间表示来捕获时间信息，并采用了自适应尺度自注意力模块和自适应空间-时间采样模块的SparseBEV [33]，以动态捕获BEV和时间信息。

Radar-camera 3D Perception

毫米波雷达由于其低成本、长距离感知、多普勒速度测量以及对抗恶劣天气条件的鲁棒性，在自主车辆中得到了广泛应用。尽管毫米波雷达数据通常包括距离、角度和速度信息，但在测量目标的俯仰角方面表现相对较差。此外，毫米波雷达数据固有的稀疏性和缺乏语义信息，对纯雷达基于的3D感知提出了挑战。因此，毫米波雷达通常被用来增强多模态3D感知系统的性能，作为辅助模式。

图1：RCEVDet的整体 Pipeline 。首先，通过图像编码器处理多视图图像并提取特征，然后使用视图转换模块将这些特征转换为图像BEV特征。同时，雷达点云通过提出的RadarBEVNet编码为雷达BEV特征。接下来，图像和雷达BEV特征使用Cross-Attention Multi-layer Fusion模块动态对齐和聚合。最后，将融合后的多模态语义丰富的BEV特征用于3D目标检测任务。

近年来，由于多视图摄像头和毫米波雷达传感器在3D感知方面的互补性质，其组合引起了广泛关注。具体来说，RadarNet [43]引入了雷达-摄像头融合的多级融合 Pipeline ，以提高远程目标检测的准确性和减少速度误差。CenterFusion [14]利用关键点检测网络从图像生成初始的3D检测结果，并将基于柱子的雷达关联模块用于通过将雷达特征与相应的检测框链接来细化这些结果。类似地，MVFusion [44]实现了摄像头和毫米波雷达之间的语义对齐，增强了这两者之间的交互。

此外，Simple-BEV [45]调查了多传感器BEV感知系统的体系结构设计和超参数设置。CRAFT [12]提出了一种使用Soft-Polar-Association和Spatio-Contextual Fusion Transformer的 Proposal 级融合框架，用于高效地在摄像头和毫米波雷达之间交换信息。RADIANT [46]开发了一个网络来估计雷达回波和物体中心之间的位置偏移，并利用雷达深度信息来增强摄像头的特征。近年来，CRN [13]为多视图转换生成雷达增强图像特征并采用雷达深度信息，并利用交叉注意机制解决雷达和摄像头传感器之间的空间不对齐和信息不匹配问题。

RCFusion [9]利用雷达PillarNet [47]生成雷达伪图像，并提出了一种加权融合模块有效地将雷达和摄像头的BEV特征进行融合。

BEVGuide 基于CVT 框架并提出了一种基于BEV的传感器无关的关注模块，有助于BEV表示学习和理解。BEVCar [37]引入了一种创新的雷达-摄像头融合方法，用于BEV图和目标分割，并采用基于注意的图像提升策略。

RadarBEVNet

先前雷达-摄像头融合方法通常使用设计用于激光雷达点云的雷达编码器，如PointPillars 。相比之下，作者引入了RadarBEVNet，专为高效雷达BEV特征提取而设计。RadarBEVNet通过双流雷达 Backbone 网络和RCS感知的BEV编码器将稀疏雷达点编码为密集的BEV特征，其中RCS感知的BEV编码器利用RCS作为一个物体大小的先验，将单个雷达点的特征分散到BEV空间中的多个像素中。

3.1.1 Dual-stream radar backbone

双流式雷达 Backbone 结构包含两部分：基于点的 Backbone 结构和基于 Transformer 的 Backbone 结构。

基于点的 Backbone 结构专注于学习局部雷达特征，而基于 Transformer 的 Backbone 结构捕获全局信息。

对于点型的 Backbone 结构，作者采用类似于PointNet[49]的架构。如图2a所示，点型的 Backbone 结构由S个块组成，每个块中包含一个多层感知机（MLP）和一次池化操作。具体而言，输入雷达点特征f首先通过MLP增加其特征维数。然后，将高维雷达特征送入MaxPool层，并使用残差连接。整个过程可以形式化为以下公式：

至于基于 Transformer 的 Backbone 结构，它由S个标准 Transformer 块[50, 51]组成，其中包含注意力机制、前馈网络和归一化层，如图2b所示。由于自主驾驶场景的广泛范围，直接使用标准自注意力优化模型可以具有挑战性。为了应对这个问题，作者提出了一种距离调制自注意力机制（DMSA），通过在早期训练迭代阶段聚合相邻信息来促进模型收敛。具体而言，给定N个雷达点的坐标，作者首先计算所有点之间的对距离D∈R^{N×N}。

实际上，高斯样权重图G赋予点附近的位置高权重，远离点的位置低权重。作者可以使用生成的权重G调制注意力机制，如下公式所示：

这里表示输入特征维数。

在双流雷达 Backbone 结构中，作者还引入了密集连接的多尺度特征金字塔以捕捉不同空间范围的信息，并将点型的 Backbone 结构与基于 Transformer 的 Backbone 结构相结合：

作者在多个数据集（包括PASCAL VOC 2007数据集和其他几个数据集）上对提出的方法进行了验证。实验结果表明，与基于单流的信息融合方式相比，双流雷达 Backbone 结构可以更好地提取局部雷达特征并利用全局信息。

其中，Q表示 Query ，K表示键，V表示值。为了确保DMSA可以降低为纯自注意，作者在训练过程中将替换为可训练参数。当时，DMSA降格为纯自注意。作者还研究了多头DMSA。每个头具有独立的来控制DMSA的感知范围。具有H个头的多头DMSA可以表示为：MultiHeadDMSA，其中

为了增强来自两种不同后置的雷达特性的交互，作者引入了注入和提取模块，该模块基于交叉注意力，如图3所示。此模块应用于两种后置的每个块。

具体而言，假设点基和 Transformer 基的第i个块的特征分别为和。在注入操作中，作者将作为键，将作为 Query 和值。作者使用多头交叉注意力将 Transformer 特征注入点特征，可以表示为：

其中_LN\是LayerNorm，是一个可学习的缩放参数。

类似地，提取操作通过交叉注意力从 Transformer 基提取点特征。提取操作的定义如下：

其中FFN是FeedForward Network。更新后的特征和被发送到相应的主干网络的下一层。

3.1.2 RCS-aware BEV encoder

当前的雷达BERV编码器通常将点特征散射到BERV空间，基于点的3D坐标。然而，这将导致一个稀疏的BERV特征图，其中大多数像素都包含零值。这种稀疏性使得一些像素有效地聚合特征变得困难，可能会影响检测性能。一个解决方案是增加BERV编码器层数，但这也可能导致背景特征将小目标特征平滑掉。为了解决这个问题，作者提出了一种称为RC-aware的BERV编码器。雷达横截面积（RCS）是通过雷达测量目标的可检测性。例如，较大的物体通常会产生更强的雷达波反射，导致更大的RCS测量。因此，RCS可以提供一个物体的尺寸的粗糙估计。

RC-aware BERV编码器的关键设计是RC-aware散射操作，它利用RCS作为目标的尺寸的先验估计。利用这个先验，作者提出的散射操作允许单个雷达点上的特征被散射到BERV空间中的多个像素，而不是局限于一个像素，如图4所示。

特别是，在给定一个特定的雷达点及其RCS值、3D坐标、BERV像素坐标和特征的情况下，作者将散射到像素和与其像素距离小于的附近像素。如果BERV特征中的一个像素从多个雷达特征接收到，作者将这些特征进行池化求和。这个操作确保所有相关的雷达信息得到有效结合，从而实现全面的雷达BERV特征。此外，作者引入了一个根据RCS值按比例生成的类似于高斯分布的BERV权重图，如下所示：

其中是像素坐标。最终获得的类似于高斯分布的BERV权重图是通过在所有类似于高斯分布的BERV权重图中取最大值得到的。然后，作者将与进行拼接，并将其输入到MLP以获得最终的RCS-aware BERV特征，如下所示：

之后，与原始BERV特征相拼接，并送入BERV编码器，例如，SECOND [52]。

Cross-Attention Multi-layer Fusion Module

在本节开始介绍交叉注意力多层融合模块

3.2.1 Multi-modal Feature Alignment with Cross-Attention

其中，和分别表示BEV特色的柱度和宽度，表示BEV特色通道，是变形交叉注意力中参考点的数量。

由于未对齐的雷达点通常偏离其真实位置一个非常小的距离，因此作者提出采用可变形交叉注意力 [53] 准确捕捉并校正这些偏差。此外，可变形交叉注意力将变形前后交叉注意力的计算复杂性从降低到，其中和分别表示BEV特征的高度和宽度，表示BEV特征通道，而是变形交叉注意力中的参考点数量。

作者首先向和添加可学习位置嵌入。然后，将转换为 Query 和参考点，而被视为键和值。接下来，作者通过以下方式计算多头可变形交叉注意力 [53]：

其中索引注意力头，索引采样键，表示采样键的总数，表示采样偏移，表示由和计算的注意力权重，表示融合多头附加注意力的输出权重值，是在第个头上的值投影矩阵。

类似地，作者交换和，并进行另一轮可变形交叉注意力以更新。最后，CAMF中的可变形交叉注意力模块可以定义为：

3.2.2 Channel and Spatial Fusion

在将雷达和 cameras的BEV特性通过交叉注意力对齐之后，作者提出了一种通道和空间融合层来聚合多模态BEV特性，如图5所示。具体地，作者首先将两个BEV特性拼接在一起，得到。然后，被送入一个CBR块（Convolutional Block）带有残差连接，以获得融合特征。CBR块依次包含一个3x3卷积、一个批量归一化和一个ReLU激活函数。接着，三个CBR块被应用于进一步融合多模态特性。

4 Rcbevdet++: Radar-camera sparse fusion for 3D perception

图6说明了，为了充分挖掘RcbeVDet的潜力，作者将CAMF模块扩展以支持稀疏融合与基于 Query 的多视点相机感知模型，这种方法比基于BEV的方法获得了更高的准确度。此外，作者将RcbeVDet应用到了更多的感知任务，包括3D目标检测，BEV语义分割和3D多目标跟踪。为了区分这个更新的RcbeVDet版本与原始版本，作者特意将其命名为RcbeVDet++。

Sparse Fusion with CAMF

图7所示，作者采用CAMF的稀疏融合方法将密集雷达BEV特征和图像稀疏特征进行融合。具体而言，作者首先用图像稀疏特征替换原始图像BEV特征。然后，作者执行一个投影和抽样过程，使用3D绝对位置将每个图像稀疏特征与雷达特征关联。更具体地说，作者将3D绝对位置转换为BEV，并用双linear插值采样相应的雷达特征，以获得稀疏雷达特征。接下来，作者利用MLP组成的位置编码网络将3D绝对位置转换为3D位置嵌入，并将其添加到多模态 Query 中。然后，为了对齐多模态不匹配，作者采用可变形交叉注意力针对稀疏图像特征和密集雷达BEV特征，以及针对稀疏雷达特征和稀疏图像特征采用简单的交叉注意力。

其中表示雷达或图像的稀疏特征。最后，作者采用一个简单的线性层将稀疏多模态特征进行融合。### 下游3D感知任务

作者的RCBEVDet++可以生成高质量的多模态特征，这些特征可以用于各种3D感知任务，包括3D目标检测，3D多目标跟踪和BEV语义分割。为了预测3D目标的边框，作者采用 Query 引导的Transformer解码器[33]，并在每个Transformer解码器层中应用CAMF模块进行稀疏融合。

然后，作者采用跟踪检测框架来进行3D多目标跟踪任务。具体而言，作者执行基于速度的贪婪距离匹配，即对每个目标在多个帧中计算中心距离，使用预测的加速度补偿，并以贪心方式为具有最小中心距离的目标分配相同的ID。

对于BEV语义分割，作者将多模态特征转换为密集BEV特征，因为这将需要具有类别密度的密集BEV映射。作者遵循CVT[35]解码器架构来有效地解码密集BEV特征到具有语义表示的不同图。此外，作者采用多个头来执行不同类型的BEV语义分割任务，每个头处理一个任务，例如车辆分割。最后，作者使用焦损失[54]并采用Sigmoid层作为训练的监督。

5 Experiments

在本节中，作者通过大量实验评估 RCBEVDet 和 RCBEVDet++。在第 5.1 节中，作者详细介绍了实验设置。在第 5.2 节中，作者将作者的方法与最先进的州界方法在三个任务中进行了比较，这些任务分别是即三维目标检测、BEV语义分割和 3D 多目标跟踪。在第 5.3 节中，作者进行了一项广泛的 Ablation 研究，以调查 RCBEVDet 和 RCBEVDet++ 中的单个组件。在第 5.4 节中，作者讨论了 RCBEVDet++ 在 BEV 语义分割中的任务权衡。在第 5.5 节中，作者展示了 RCBEVDet 的鲁棒性。在第 5.6 节中，作者展示了作者方法的可建模性。

Implementation Details

5.1.1 Datasets and Evaluation Metrics

作者在一项流行的自动驾驶大规模评估标准（nuScenes[26]）上进行了实验，该标准包括美国波士顿和新加坡的1000个驾驶场景。该标准包含850个场景用于训练和验证，以及150个场景用于测试。作者在验证和测试集上报告结果，并与最先进的算法进行比较，同时在验证集上评估了消融结果。

对于3D目标检测，nuScenes提供了一组评估指标，包括平均精度（mAP）和五个真阳性（TP）指标：ATE，ASE，AOE，AVE和AAE，分别衡量了转换、缩放、方向、速度和属性错误。总体性能由nuScenes检测得分（NDS）衡量，该得分整合了所有错误类型：

对于BEV语义分割，作者使用所有分割类别之间的平均交点（mIoU）作为指标，遵循LSS[28]的设置。

对于3D多目标跟踪，作者遵循nuScenes的官方指标，使用了各种召回阈值下的平均多目标跟踪精度（AMOTP）和平均多目标跟踪准确率（AMOTA）。具体来说，AMOTA定义如下：

其中表示当前类的真阳性数量，是标量因子，表示身份切换的数量，和分别表示假阳性数量和假阴性数量，且设置为40。对于AMOTP，它可以表示为：

其中表示目标在时间的位置误差，表示在时间的匹配数量。

5.1.2 Architecture and Training Details

本文采用BEVDepth [29]、BEVPoolv2 [55]、SparseBEV [33]作为RCBEVDet和RCBEVDet++的摄像机流。对于BEVDepth，作者遵循BEVDet4D [30]来累积多帧的中间BEV特征，并添加一个额外的BEV编码器来聚合这些多帧的BEV特征。对于雷达，作者累积多扫雷达点，并以RCS和多普勒速度作为输入特征，与GRIFNet [56]和CRN [13]相同的方式。作者将双流雷达骨架中 stages（阶段）的数量设置为3。

对于三维目标检测 Head ，作者使用CenterPoint [57]中的中心 Head 进行RCBEVDet，并使用SparseBEV [33]中的稀疏 Head 进行RCBEVDet++。在BEV语义分割 Head ，作者为每个任务采用单独的分割 Head 。对于三维多目标跟踪，作者遵循CenterPoint，以贪心方式跟踪多帧中的目标中心。

作者的模型分为两阶段训练。第一阶段，作者根据标准实现 [29, 33]训练基于摄像机的模型。第二阶段，作者训练雷达-摄像机融合模型。摄像机流的权重从第一阶段继承，并在第二阶段中冻结摄像机流的参数。所有模型使用AdamW [58]优化器训练12个周期。为了防止过拟合，作者从图像旋转、裁剪、缩放和翻转以及雷达水平翻转、水平旋转和坐标缩放等方面应用了各种数据增强。

Comparison with State-of-the-Art

作者将作者的方法与当前最先进的基于摄像头的和雷达-摄像头多模态方法进行了比较，应用于三个任务：3D目标检测，BEV语义分割，和3D多目标跟踪。

5.2.1 3D Object Detection

作者在表格I和II中分别提供了在val集和测试集上的3D目标检测结果。

如表1所示，RCBEVDet在各种backbone上超越了之前的雷达-摄像头多模态3D目标检测方法。此外，基于SparseBEV，RCBEVDet++比CRN提高了4.4 NDS，展示了作者融合方法的有效性。另外，与之前的最佳方法相比，RCBEVDet和RCBEVDet++将速度误差降低了14.6%，证明了作者在利用雷达信息方面的方法效率。

在测试集上，使用V2-99 Backbone 时，RCBEVDet++将SparseBEV Baseline 提高了5.1 NDS和7.0 mAP，并超越了其离线版本（使用未来帧）。值得一提的是，使用较小V2-99 Backbone 的RCBEVDet++与StreamPETR和Far3D使用较大 Backbone Vit-L的性能相当。此外，使用较大Vit-L Backbone 的RCBEVDet++在无测试时数据增强的情况下实现了72.7 NDS和67.3 mAP，为nuScenes上的雷达-摄像头3D目标检测设立了新的最先进结果。

5.2.2 BEV Semantic Segmentation

在Table III的val集上，作者将作者的方法与最先进的BEV语义分割方法进行比较。采用ResNet-101 Backbone 网，RCBEVDet++在"Drivable Area"类别的性能上比CRN有0.6的IoU优势，同时也比BEVGuide在"Lane"类别的性能上有了6.3的IoU优势。在所有任务的综合评估中，RCBEVDet++达到了惊人的62.8 mIoU，比之前的最佳结果提高了1.8 mIoU。这些结果表明了作者在处理BEV语义分割任务时的方法的有效性。

state-of-the-art的性能，mIoU达到62.8，比之前的最佳结果提高了1.8 mIoU。这些结果展示了作者的方法在处理BEV语义分割任务上的有效性。

5.2.3 3D Multi-Object Tracking

在表4中，作者总结了在nuScenes测试集上的3D多目标跟踪结果。由于作者方法在估计物体位置和速度方面的高精度，RGEVDet++同时实现了最佳的AMOTA和AMOTP，与最先进的方法相比。

Ablation Studies

作者对所提出的方法的各个设计选择进行了评估。为了简便起见，作者对3D检测任务进行了评估。所有结果都在nuScenes验证集上得到，使用了ResNet-50 Backbone 网络，图像输入大小为，BEV大小为，除非另有说明。

5.3.1 Main Components

在本研究中，作者对第三节中的主要组成部分进行实验，以便评估它们的有效性，包括RadarBEVNet和CAMF。具体来说，如表5所示，作者逐步向baseline BEVDepth添加组件以创建RGEVDet。首先，基于仅使用相机的模型，作者利用CRN [13]中采用PointPillar作为雷达背骨的单雷达和相机的3D目标检测 Baseline 。该 Baseline 雷达-相机检测器 achieve 53.6 NDS和42.3 mAP，相较于仅使用相机的检测器提高了1.7 NDS和1.8 mAP。接下来，将PointPillar替换为提出的RadarBEVNet，产生了2.1 NDS和3.0 mAP的改进，证明Radar-BEVNet的雷达特征表示能力很强。此外，整合CAMF将3D检测性能从55.7 NDS提高到56.4 NDS。此外，作者遵循Hop [66]的方法，引入额外的多帧损失，称为Temporal Supersonic，从而实现0.4 NDS的改进和0.3 mAP的降低。

总的来说，作者观察到每个组成部分都持续地提升了3D目标检测性能。同时，结果表明多模块融合可以显著提升检测性能。

5.3.2 RadarBEVNet

表6中展示了与RadarBEVNet设计相关的实验结果，包括双流雷达 Backbone 网络和了解目标散射截面(RCS)的BEV编码器。具体而言，使用PointPillar作为雷达 Backbone 的基础模型实现了54.3 NDS和42.6 mAP。将了解目标散射截面的BEV编码器集成到模型中，使其在3D目标检测方面的性能提高了1.4 NDS和1.9 mAP，证明了所提出的了解目标散射截面的BEV特征重建的有效性。此外，作者发现直接将基于Transformer的 Backbone 与BEV Backbone 相结合，其性能仅略有提高。这可以归因于基于点和小Transformer Backbone 分别对雷达点进行单独处理，它们各自独特的雷达特征表示缺乏有效的交互。为了解决这个问题，作者引入了注入和提取模块，从而提高了0.6 NDS和0.8 mAP的性能。

此外，作者在不同的输入模式下，将所提出的RadarBEVNet与PointPillar进行了比较。如表7所示：

5.3.3 Cross-attention Multi-layer Fusion (CAMF)

在本研究中，作者对CAMF模块进行了消融实验，该模块包括用于对多模态特征进行对齐的可变形交叉注意力机制以及用于BEV特征融合的通道和空间融合模块，如表8所示。具体而言，使用来自BEVfusion[4]的融合模块的基准模型在融合模块上获得了55.7 NDS和45.3 mAP。当引入可变形交叉注意力机制进行多模态BEV特征对齐时，3D检测性能从55.7 NDS和45.3 mAP提高到56.1 NDS和45.5 mAP。这突显了交叉注意力机制在跨模态特征对齐的有效性。此外，作者注意到，在BEVfusion[4]的单层融合之外引入了通道和空间融合模块进行BEV特征融合，性能提高了0.3 NDS和0.1 mAP。这表明，通道和空间多层融合提供了更好的多模态BEV特征。

5.3.4 Sparse Fusion with CAMF

九表展示了作者使用CAMF的稀疏融合的消融结果。九表的第一行指的是稀疏BEV Baseline 。仅采用变形注意机制将雷达BEV特征与图像稀疏特征对齐，得到的性能提升为1.2 NDS和2.3 mAP。在添加雷达 Query 样本进行多模态特征对齐后，进一步提升了检测性能2.4 NDS和4.2 mAP。此外，作者观察到，用非参数编码（即正弦位置编码）替代可学习的位编码，可以提升结果1.9 NDS和1.9 mAP。最后，与RCBEVDet中的CAMF相比，九表中的线性融合在MLP的层叠融合上超过了多层融合。这是因为BEV特征是二维密集特征，需要空间和通道的融合；而稀疏 Query 特征是一维特征，因此，线性融合层是足够的。

Task Trade-off in BEV semantic segmentation

在nuScenes中，BEV语义分割需要完成三个任务，包括车辆、可行驶区域和车道 segmentation。为了在这三个任务之间实现最佳平衡，作者调整了三个任务的损失权重，并将其结果显示在表10中。作者发现，为每个任务分配相等的损失权重得到57.7 mIoU。随着车辆和车道的损失权重逐步增加，同时降低可行驶区域的损失权重，分割性能首先从57.7 mIoU增加到59.5 mIoU，达到峰值，然后下降到58.9 mIoU。在车辆、可行驶区域和车道分别采用400、80和200的损失权重时，最佳任务权衡实现。进一步增加车辆和车道的损失权重可能会损害三个任务的所有分割性能。

Analysis of Robustness5.5.1 Sensor Failure

为了分析传感器故障场景下的鲁棒性，作者随机删除图像或雷达输入进行评估。在本实验中，作者采用dropout训练策略作为数据增强，用于训练RCBEVDet，并报告CRN [13]中的_Car_类mAP。具体来说，RCBEVDet在所有传感器故障情况下都优于CRN和BEVFusion，_Car_类的mAP更高。值得注意的是，CRN在三种雷达传感器故障案例中的mAP分别下降了4.5、11.8和25.0，而RCBEVDet仅出现0.9、6.4和10.4 mAP的下降。

这些结果强调了所提出的交叉注意力模块通过动态对齐增强了BEV特征的鲁棒性。

5.5.2 Modal Alignment

为了进一步展示CAMF与雷达校正的效果，作者以随机扰动的方式对雷达输入的x轴和y轴坐标进行操作。具体而言，作者将x轴和y轴坐标每个雷达点的噪声均匀地从-1到1中采样。如表12所示，RCBEVDet在噪声雷达输入下仅降低1.3 NDS和1.5 mAP，而CRN降低2.3 NDS和5.1 mAP。此外，作者通过图8可视化了CAMF如何解决雷达偏移的问题。如图8所示，许多雷达特征与 GT 框之间的位置存在偏差。利用CAMF，这些雷达特征得以在真实框内重新对齐，从而有效地校正了雷达的偏移问题。

5.5.3 Comparison with CRN

CRN [13] 也利用可变形交叉注意力来解决雷达-相机的匹配问题。表11 和表12 的结果表明，作者的 CAMF 比 CRN 中提出的多模态可变形交叉注意力模块（MDCA）更鲁棒。为了进一步区分作者的方法，作者提出：

Model Generalization

RCBEVDet采用双分支架构将雷达和多视角相机融合，并将多视角相机基础方法集成到该模型中，从而提高特征表示。为了证明RCBEVDet模型的泛化能力，作者在3D目标检测框架中分别使用了不同的 Backbone 网络和检测器设计进行实验。

5.6.1 Generalization for Backbone Architectures

为了证明RCBEVDet在backbone架构上的模型泛化能力，作者在BEVDepth上进行了实验，包括使用基于CNN和Transformer的多种backbone架构。如表13所示，作者的方法在不同backbone上的 Baseline 性能可提高3.8~4.9 NDS和4.8~10.2 mAP。此外，对于大小不同的相同类型的backbone结构（例如，ResNet-18和ResNet-50），RCBEVDet可以实现一致的性能提升4.9 NDS。

5.6.2 Generalization for 3D Detector Architecture

作者通过将作者的方法集成到各种主流的多视图摄像头基的3D目标检测器中，包括基于LSS的方法（例如，BEVDet和BEVDepth）和基于 Transformer 的方法（例如，StreamPETR和SparseBEV），来评估检测器的架构通用性。这些方法代表了各种检测器设计。如表14所示，通过将雷达特征进行融合，作者的方法提高了所有流行的多视图摄像头基3D目标检测器的性能。具体而言，对于基于LSS的方法，RCBEVDet对BEVDet的5.6 NDS和4.9 NDS进行了改进。

表9：带噪声雷达输入的雷达-摄像头多模态对齐。BEVDepth，分别。对于基于 Transformer 的方法，RCBEVDet++在NDS方面获得相似的性能改进，即分别提高了StreamPETR和SparseBEV的5.6 NDS和5.9 NDS。值得注意的是，与基于LSS的方法相比，基于 Transformer 的方法得到的mAP改进更多。原因是基于LSS的方法通常使用LiDAR点提供的深度监督进行更准确的3D位置预测，而基于 Transformer 的方法可以隐式地学习3D位置。因此，基于 Transformer 的方法可以从雷达特征中获得更多的深度信息。总体而言，这些结果表明作者的方法在各种3D目标检测器上的检测器架构通用性。

6 Conclusion

在本文中，作者首先介绍了RCBEVDet，这是一个雷达-摄像头融合3D检测器。

它包括一个现有的基于摄像头的3D检测模型，一个专门设计的雷达特征提取器，以及CAMF模块，用于对齐和融合雷达-摄像多模态特征。RCBEVDet在多个backbone上改善了各种基于摄像头的3D目标检测器性能，并在nuScenes数据集上展示了对抗传感器故障情况的强大鲁棒性能力。

为了发挥RCBEVDet的潜力，作者提出了RCBEVDet++，它将CAMF模块扩展到支持基于 Query 的多视相机感知模型，实现稀疏融合，并适应更多的感知任务，包括3D目标检测、BEV语义分割和3D多目标跟踪。

在nuScenes数据集上的大量实验表明，RCBEVDet++进一步提高了基于相机的感知模型性能，并在这三个感知任务上实现了新的最先进的雷达-摄像头多模态结果。

值得注意的是，无需使用测试时增强或模型集成，RCBEVDet++取得了ViT-L图像backbone的3D目标检测72.73 NDS和67.34 mAP。

#Occupancy Prediction相关论文总结

本文总结ECCV2024关于自动驾驶方法Occupancy Prediction (Occ) 相关的论文，整体偏结论性的总结，技术细节请看原文。总结文章的思路包括文章主要的motivation，文章主要contribution，methods的关键部分和个人的对文章的一些thoughts，五个方面进行总结。

如果有遗漏或者理解不到位的地方，欢迎评论区进行指正和讨论。

本文总结的论文包括如下：

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

arxiv.org/abs/2405.17429

Fully Sparse 3D Panoptic Occupancy Prediction

arxiv.org/abs/2312.17118

Occupancy as Set of Points

arxiv.org/abs/2312.17118

ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers

arxiv.org/abs/2405.04299

CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction

arxiv.org/abs/2409.13430

OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

arxiv.org/abs/2404.15014

VEON: Vocabulary-Enhanced Occupancy Prediction

arxiv.org/pdf/2407.12294

nuCraft: Crafting High Resolution 3D Semantic Occupancy for Unified 3D Scene Understanding

poodarchu.github.io/publication/eccv2024_nucraft/

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

arxiv.org/pdf/2311.16038

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

自动驾驶之心解读：3D Gaussian杀入Occ！GaussianFormer：突破Occ瓶颈，显存开销直降五倍（清华&鉴智） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/700833107

GaussianFormer利用3D Gaussian去表达3D场景

Motivation：

先前方法都利用密集的方式，如体素表示3D场景，其忽略了3D空间的稀疏性和对象尺度的多样性，从而导致资源分配不平衡的问题。3D Gaussian的兴起，其object-centric的表达可以利用稀疏的3D语义高斯来表示3D场景。

Contribution：

一种基于3D Gaussian表达的Occ方法

Methods:

GaussianFormer整体框架

GaussianFormer可以认为就是BEVFormer的变种，把原来的query表示改成3D Gaussian表示，这里讲两个最重要的部分，3D Gaussian query的定义及如何进行体素转换，另外就是Cross-Attention的设计

3D Gaussian query&Gaussian-to-Voxel

3D Gaussian-to-Voxel

由3D Gaussian转换成Occ的表达，首先根据每个3D Gaussian的位置平均值m，编码到每个体素中去，然后根据其尺度s去判断其影响的周围体素，从而得到一个Gaussian和对于体素的tuple，如图左边所示。而后通过sort后，可以计算得到每个体素的特征：

Image Cross-Attention

Thoughts：

3D Gaussian在生成领域的大火，很快就把NeRF的风头抢去了，尽然去年有不少用NeRF去做Occ的论文，那么一篇利用3D Gaussian去做Occ的也很正常。但这篇论文，其实有很多问题没有解决，在我看来其实就是简单的把Gaussian这个概念套进来了，并没有很好的利用Gaussian的性质。首先就是3D Gaussian其收敛快和效果好的重要部分之一就是其对于3D Gaussian在场景的初始化工作，但在这篇工作中，就是简单的随机初始化，这显然会对网络的训练造成影响；另外就是Gaussian-to-voxel的设计，好像忽略了Gaussian的透明度概念；再而就是3D Gaussian最重要的density control机制，并没有进行设计。所以从实验结果来看，其效果并不好，也没有和最新的方法进行比较，所以其文章的motivation，object-centric的3D Gaussian比其他表达形式好的思路，并没有成立。

Fully Sparse 3D Panoptic Occupancy Prediction

SparseOcc结果图

自动驾驶之心解读：SparseOcc：全稀疏3D全景占用预测（语义+实例双任务） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/675811281

作者本人讲解：[ECCV 2024] SparseOcc 纯稀疏3D占用网络和 RayIoU 评估指标 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/709576252Thoughts：

由于作者本人的解读已经解读的很好了，这里就不再进行解读了。SparseOcc第一次提出了完全sparse的框架，也就是全程只处理非空体素，但这种选择其实也可以认为牺牲性能换取时间和显存消耗？不过也证明了仅处理非空体素仍然也可以得到不错的效果。另外SparseOcc提出的新RayIoU指标，个人认为才是最重要的贡献，因为MIoU指标的不合理性，导致此前很多文章的性能其实是虚高的，比如NeRF相关的自监督系列。

ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers

作者本人解读：ECCV2024 | ViewFormer: 高效的多视图时空建模占据网络 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/706548179

View Attention和原来Project Attention区别

Motivation：

传统方法产生3D体素通常利用投影的方式的可变性注意力机制（BEVFormer类方法），但由于传感器的部署问题，这种方法往往不能聚合多视图的特征。如上图所示，传统的projection方法，先定义一个三维空间的点，然后把它通过相机参数投影到各个相机上，如果投影不到某个相机上，那么这个相机就不会提供特征给这个三维点。为了解决这个问题，提出View-Attention。另外，为了进一步探索占用级的场景流向表示，提出了FlowOcc3D数据集。

Contribution：

分析了现有projection方法的缺点，提出了view attention去更好的聚合多视角的信息
提出FlowOcc3D，Occ级别的场景流预测benchmark。

Methods：

ViewFormer整体框图

其实整体的方法可以认为还是BEVFormer那套，不过其主要提出View-Attention来替换此前的Cross-Attention来解决本文提出的问题，而这个Temporal Attention方式，个人认为其实就是Solofusion的变种，没有太多可以讲的地方，所以下面重点讲一下View-Attention。

View-Attention

View-Attention的核心思路是用一种学习的方法，去克服原来纯物理的方法，其首先在利用查询的三维空间点，学习在一个局部坐标（VC）下的相邻区域的点，然后把这些学习后相邻区域的点进行投影，其表达形式可以表示为：

简单的说，其实View-Attention可以认为是先在3D空间做Sampling Offset的Deformable Attention。

Thoughts：

个人感觉View-Attention并没有非常讲解的清楚，因为这个学习也是无监督的，有可能也会出现学习到的点没法投影到平面上的情况，所以有可能一部分点解决了以往存在的问题。而且对于nuscenes数据集来说，三维点基本只能投影到一个或两个相机平面上，从BEVFormer的角度出发，即使一个点只有在一个视角平面上进行投影，其获得的特征也是足够的，有的方法，甚至为了简便，只会采用一个视角上获取的特征，所以这个view-attn具体的作用有多大，有可能存在疑问。

CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction

不同时序融合方法对比

Motivation：

现有的时序融合方法主要分为两大类，一类是图a和图b中的warp类方法，通过利用不同帧之间的变化矩阵，在特征平面，进行wrap操作，将过去帧特征到变化到当前帧中，并进行融合，这类方法缺少3D空间中的几何约束，更多的是隐式的学习。还有一类则是图像平面的cost volume构建，利用多帧的图像，去构建cost volume作为时序融合，但基于这种cost volume的构建，当帧数变多时，其计算代价比较大。所以为了解决上述问题，本文采用在特征空间上去做cost-volume，减少计算量的同时，引入3D几何约束。

Contribution：

一种基于cost-volume的时序融合方法

Methods：

CVT-Occ网络结构图

文章的核心就是这个Cost Volume Temporal Module，它的核心思路就是利用当前和过去帧的体素特征，去构建一个有关体素的cost volume从而通过这个cost volume去得到体素特征下的占据情况，也就是图中的weights，最后利用这个weights去和当前帧的体素特征得到带有占据感知权重的Voxel特征，从而更好的分辨Occ的情况。

而cost volume的构建，会在当前帧的体素下，沿着每个体素特征对应的视线的方向进行采样，每条视线上去采样N个点，然后每个点投影到过去k-1帧的体素特征中，去获取对应的特征，最后得到 K X N 的特征，通过聚合每个视线上的特征，则最后的体素特征为 H X W X Z X(K X N)X C。

这里为了解决一条视线上的N个点都投影到当前帧同一个像素上的问题，在此方法中会同时把这些点投影到历史帧的图像上去获得不同的特征。

在得到Cost Volume H X W X Z X(K X N)X C后，经过一定处理，得到表达占据信息的Weights，通过这个占据Weights去优化当前帧的体素特征。

Thoughts：

这篇文章时序融合的方式，相较于其他方法而言，它的重点不是去把过去帧的信息拉到当前帧，去增强不同帧中同一物体的表达，而是利用过去帧的信息去学习一个中间表达，这里是Cost Volume，也可以是其他形式的东西，然后这个中间表达以某种形式去优化当前帧的体素，像这里是生成占据的信息，去优化体素特征。这种时序的利用方式，优点在于，在长时序融合时，其不用考虑过去帧对当前帧的覆盖程度的问题（像SOLOFusion里提到的，长时序中过去帧有可能只能给当前帧提供非常有限的信息），但不清楚这种方法，在速度上如何。

OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

自动驾驶之心解读：上交&华为 | OccGen：生成式3D语义占用预测模型在自动驾驶领域的新突破 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/694757098

OccGen利用生成模型的优势、自动的实现由粗到细的生成

Motivation：

先前的方法都是基于判别模型去完成Occ任务，把Occ任务都当作是一个三维体素的分割感知问题看待。这样去处理侧重学习输入和图像和Occ之间的映射关系，缺乏逐步细化Occ的能力。而生成式模型，天然的具有coarse-to-fine的能力，很适合Occ任务。

Contribution:

一种基于生成式的noise-to-occupancy框架

Methods：

OccGen整体框架符合encoder-decoder框架

整体框架分为Encoder和Decoder（Refinement）两部分，Encoder部分利用单模态或多模态的信息构建初始3D体素特征，在图里也是作为一种conditional inputs。而Decoder部分，则负责通过以初始3D体素为条件，去逐步优化3D noise map。下面先以noise-to-occ说起，再说encoder和decoder部分。

Noise-to-Occ

Conditional Encoder

在这里，条件指的是由多模态或单模态提供的初始3D体素特征。具体而言，对于图像特征，则是基于LSS的方法，而对于点云特征则是VoxelNet的方法。当使用两种特征时，则在Voxel特征表达下，通过简单的3D卷积进行特征融合。

Progressive Refinement Decoder

Decoder将噪声数据，和condition数据作为输入，通过多层逐步优化噪声的过程，最后通过去噪得到优化体素特征。具体对于噪声的优化，则是由3D self attention和3D cross attention来完成的，没有什么特别的地方，就不详细说了。在优化完噪声后，通过diffusion去噪过程，最终得到优化体素：

ToEmbed()表示对某个步t的编码，最终通过一个Occ头，得到占据结果，从而进行训练。

Thoughts：

由于Diffusion可以完成seg和det的任务，所以迁移来做Occ其实是很直观的想法，并且Occ任务天然需要的coarse-to-fine特性也可以由Diffsuion来完成。但是就文章的消融实验来说，加不加这个diffusion过程，对结果的影响非常小，效果提升的体素有可能来源于用文章提出的3D self attention和3D cross attention去优化体素，而不是diffusion过程？所以关于这个diffusion在Occ上的应用，有可能还需要更多的研究

Occupancy as Set of Points

Volume-based和point-based对比

Motivation：

传统Occ方法，基于BEV或者Voxel的表达的形式，平等的对待每一个区域，限制其只能完成粗采样，阻碍了网络的动态和多分辨率采样能力，并且，这种方法在推理时，只能一次性推理整个空间，不能分开进行有针对性的推理。基于上述缺点，提出使用point作为表达形式的Occ网络。

Contribution：

提出一种point-based 的Occ表达
Point-based的framework，使得网络可以在推理时，不需要重新训练和损失精度的情况下，对场景外或者特点区域进行推理。

Methods：

OSP整体框架

整体方法的核心在于两部分：Position Encoder和Point Decoder。Position Encoder负责采样和编码三维空间中的点，Point Decoder则负责将采样编码的点和二维图像特征进行特征交互。在网络的初始阶段，会首先根据体素的中心进行采样M个点，并施加随机抖动，作为网络的初始点集，在通过Position Encoder进行特征编码和position Decoder中的point cross-attention（PCA）进行特征交互增强后，基于增强的点集再oversample M个点去进行同样group point cross-attention（GPCA）操作来进一步增强点与点之间的操作。最后基于点集的特征，通过MLP进行分类，最后得到Occ结果。

Position Encoder

Position Encoder比较简单，就是对坐标进行归一化后，进行特征编码：

特征编码就是经过简单的MLP，把坐标编码到高维度。

Point Decoder

Point Decoder主要包含两部分，PCA和GPCA

PCA其实和BEVFormer里面的cross-attention没有什么太大区别，就是原来是基于query上的点，而PCA里的点是在三维空间中采样得到的点，整体的数学表达都可以用如下表示：

其中P(p,t)表示projection过程, 表示hit中的图像个数，DA表示原始的deformable attention。

为了增强点缺乏局部信息的问题，设计了GPCA。其基于初始采样的M个点，在周围生成oversample M个点，然后利用着些点去做cross-attention：

其中表示由PCA计算得到的attention，表示oversample点的position。

Thoughts：

其实基于点的预测方法，这篇文章应该不算第一篇，真正第一个引入点的文章，应该从引入nerf的simpleocc开始算，因为基于nerf的方法，本质上就是利用点的信息，预测点的信息。这篇文章的不同在于，其丢弃了此前方法要基于BEV或者Voxel特征进行点特征采样的方法，可以简单的认为是PETR在Occ方法，利用Point做文章的延申。

VEON: Vocabulary-Enhanced Occupancy Prediction

VEON利用2D fondations model强大的数据先验，完成对于3D场景的开放词汇预测

Motivations:

开放词汇对世界进行3D Occ的表达工作，尚处于需要研究的阶段，这主要是因为，现在没有大型的对于3D世界进行标注的开发词汇数据集。而一种比较直观的实现方法，是利用多个已在2D领域有突破的开发词汇模型，进行3D Occ的开发，如通过深度模型来lift出3D Voxel特征，然后利用CLIP来对其中的特征进行赋值，但其中存在一些技术上的实现问题，如现有开发词汇的深度模型，都是基于relative depth的，但在3D场景里，需要bin depth来lift到体素表达，另外CLIP中的VIT基本都是处理低分辨率图像的，其在自动驾驶场景的高分辨率图像并不直接适用。

Contribution：

提出VEON，一种利用已有2D开放词汇模型，完成技术迁移的3D Occ开发词汇模型。

Methods：

VEON整体框架

VEON整体框架分为两部分，也即解决了两个开发词汇中出现的问题，一是深度网络MiDaS，另一是语义感知网络CLIP。

Depth Pretraining

VEON中利用MiDaS来作为深度估计的基底模型，但原始的MiDaS存在以下问题，一是其原始被设计为对于relative depth的估计，而不是LSS方法中的bin depth；另一点就是MiDaS不在自动驾驶相关的场景进行训练。

针对bin depth的问题，VEON提出relative-metric-bin adaptor（rmba）去解决这一问题。具体而言，其可以分为三部分进行处理，分别是relative depth backbone，relative-to-metric adapting network和metric-to-bin transformation。

relative depth backbone本身就是MiDaS，但为了增强其在自动驾驶环境下的迁移能力，作者加了LoRA进行微调。

relative-to-metric adapting network则是为了利用MiDaS提取出的特征，生成metric depth，而不是由原来MiDaS产生的relative depth，其具体利用了ZoeDepth的头来作为feature adaptor。

metric-to-bin transformation则是将metric depth转换成LSS方法需要的bin depth，具体方法和LSS原来的方法很类似。

Occupancy Prediction

在经过Depth模块后，可以通过LSS方法得到3D体素表达，为了得到语义的表达的Occ，最简单的方法是利用CLIP提取图像的2D语义信息，然后通过bin depth信息和LSS方法，得到语义结果。但CLIP方法中的VIT模块，常常处理的特征比较小，直接迁移在自动驾驶场景里并不好用，需要高分辨率的结果，另外一点就是CLIP其对于空间信息的感知较弱。为了解决这两个问题，提出High-resolution side apator（HSA）。

HSA模块结构图

HSA模块简单的说就是提取原始CLIP的低维特征，和新建需要的高维特征进行融合，最后对VIT中的低维特征进行上采样，完成最后的输出。

Thoughts：

Occ这种场景表达的提出，本意就是解决自动驾驶环境中的corner-case，也即数据集中未见过的情况，通过简单的占据与否表达，即可对未知情况进行表达。而open-vocabulary这种形式，本身应该是十分符合Occ的表达的，但在这篇文章中，没有体现出其对驾驶环境下corner-case的影响；另一点就是本文的Occ其实极度依赖这个深度估计网络的结果，也就是其提出的技术路线，其实变相把Occ任务变成了深度估计问题。

nuCraft: Crafting High Resolution 3D Semantic Occupancy for Unified 3D Scene Understanding

nuCraft有更高分辨率的GT、更correct的GT

Motivation：

现有Occ数据集，分辨率低且存在不少错误标注情况。

Contribution：

高质量Occ数据集
基于VAE的Latent feature Occ方法

Methods：

VQ-Occ整体框架

关于数据集怎么制作，就不详细说了，因为文章里也没有说的很清楚。VQ-Occ的核心其实是其学习方法，因为Occ的分辨率提高了，在三维上的一点提高，对显存的占用都是十分大的，所以传统Occ的方法会很难训练，所以VQ-Occ采用了学习特征的方法进行训练，也即训练时，把GT-Occ进行编码，去和学习到的特征进行特征之间的Loss约束，然后通过特征Decoder最后还原出最后的结果。

Thoughts：

nuCraft数据集example

这篇文章应该算真正解决了目前学术界Occ相关的一大痛点，就是现有数据集的质量太差了，经常会出现很多不合常理的情况，导致模型很多时候其实都是在拟合数据集的分布，很难真正反映模型的性能（如Occ3D中会出现很多路断的情况）；还有一点是现有数据集的分辨率其实是较小的，0.4m对于行车而言，还是太低了，而这篇文章将分辨率提高到0.1m，也许会成为下一个学术界应该关心的问题。

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

OccWorld基于此前的观察，生成未来时刻的Occ情况

Motivation：

了解3D场景如何演化是十分重要的，现有Occ任务都处于静态，所以去学习预测基于Occ表达的三维场景演化是有意义的。并且基于Occ场景的三维演化，相比于传统对场景的表达有以下优势：细粒度更高，3D Occ标签更好得到，3D Occ可以很容易适应不同的传感器信息（点云和雷达）

Contribution：

一种基于Occ场景表达的世界模型，并基于世界模型学习轨迹解码器来获得自车规划结果。

Methods：

OccWorld整体框架采用GPT形式的生成框架，基于上次预测的场景预测下一时刻场景

OccWorld整体采用GPT式的auto-regressive生成架构，即基于上一时刻的输出，预测下一时刻的状态，并如此循环下去，其中主要包含两部分，一是对于3D Occ场景的token化，二是Spatial-Temporal Generative Transformer来以auto-regressive的形式预测未来Occ情况。

World Model For Autonomous Driving

但这种传统的方法，每一部分都需要ground-truth去训练和标注等工作，比较麻烦，并且传统的方法只基于object-level，缺少了更加细致的预测。

这样通过auto-regressive的形式，就可以一步步预测未来时刻的情况。所以世界模型w可以认为就是一次性完成了和的工作。

3D Occupancy Scene Tokenizer

3D Occ tokenizer示意图

OccWorld的输入是过去时刻的Occ结果，所以需要先对Occ结果级别的输入，进行一定高维的编码，并进行离散化方便后续特征处理等操作。

Spatial-Temporal Generative Transformer（STGT）

spatial-temporal generative transformer，整体符合U-Net结构，引入多尺度的world token和future world token

模型训练

整体模型训练分为两阶段：

第一阶段，其利用Occ标签，训练scene tokenizer e和decoder d。

第二阶段，利用学习好的 e，去编码scene token z，并用来限制codebook的编码，另外在第二阶段单独学习去学习自车的运动变化。

Thoughts:

个人感觉这个基于Occ的世界模型，和4D-Occ相关的工作其实是在做同一件事，只不过在OccWorld里其直接把过去帧的Occ结果作为输入，并且基于Occ结果进行训练，在4D-Occ相关工作，则是从感知开始，基于4D的点云进行训练，从这个角度上看，感觉4D-Occ的工作，比单纯的做世界模型有可能更加具有意义。

总结

从ECCV关于Occ的论文来看，Occ经过一年的发展，已经逐渐成熟、开始往4D-Occ以及更高效的优化角度考虑。但目前还存在一些值得探讨的问题，一是关于Occ的表达形态问题，BEV,TPV,Occ还是Point的选择，另外就是关于Occ高分辨率及高效处理问题，如何高效的处理高分辨率Occ。而4D-Occ感觉目前还处在探索阶段，还有很多可以挖掘的点，比如如何更好的利用4D-Occ做预训练、做World-Model。

#极氪和领克正式合并

刚刚，极氪和领克正式合并！高管：历史性时刻

两个品牌全面整合

吉利旗下两大品牌正式合并。

11月14日下午，吉利控股正式宣布对极氪、领克股权结构进行优化，作为落实《台州宣言》战略框架的关键性举措。

简单来说，通过吉利控股一系列的股权转让操作，让极氪持有领克51%股份，领克其余49%股份继续由吉利汽车旗下全资子公司持有，从而达到极氪与领克合并的目的。

其实，今天一早就有消息曝出，吉利旗下极氪汽车和领克汽车，或将进行战略整合，目标实现极氪对领克控股。

与此同时，还爆料极氪科技董事长安聪慧将从沈子瑜手中接任极星董事长，这也被认为是极星未来将进一步与极氪整合或协同的先兆。

如今靴子落地，但需要注意的是，在吉利发布的公告中，并没有提及有关极星的调整。

此前吉利《台州宣言》的发布，就已经铺垫了吉利集团接下来的基调就是战略整合，从几何与银河的合并，再到极氪和领克的合并，吉利在战略整合的阶段已经前进了不少。

下一个合并的品牌，会是谁？

01 吉利历史性时刻

双方正式官宣合并，吉利集团给出的理由是，理顺股权关系，减少关联交易、消除同业竞争，坚定不移推动内部资源深度整合和高效融合。

极氪智能科技副总裁林金文发文称，这是"历史性时刻"。

具体来看，吉利控股将向吉利汽车控股有限公司转让其所持有的11.3%极氪智能科技股份。交易完成后，吉利汽车对极氪的持股比例将增加到约62.8%。

同时，对领克汽车内部进行了股权结构优化，以推动极氪和领克进行全面战略协同。调整完毕之后，极氪将持有领克51%股份，领克其余49%股份继续由吉利汽车旗下全资子公司持有。

至于领克内部如何股权优化并没有披露，这部分的细节，路透社的爆料倒是提供了不少信息。

关键信息是，合并后，沃尔沃会退出领克股东的行列，沃尔沃汽车手中领克30%的股份将由极氪收购，并通过继续注资将持股比例提高到51%，达到控股领克的目的。

这笔交易预计将于明年6月完成，并且极氪的这场交易对领克的估值约为25亿美元。

根据此前的爆料，合并之后，由极氪CEO安聪慧统筹管理，领克品牌会被保留，但团队与战略将与极氪实现融合，具体方案预计年底落实。

合并过程中，财务与采购团队将率先完成合并，产品、研发等部门的调整也将在今年年底至明年年初推进。

还有知情人士透露，促使吉利高层下定决心整合两个品牌的原因，是领克与极氪产品出现重叠。

值得一提的是，在吉利集团给出双方合并的理由中就有一条"消除同业竞争"。

事实上，在不少人的心中，极氪和领克早就该合并了，特别是在近两年，这俩兄弟品牌不仅开始了相同的设计语言，甚至还已经触及对方的主力领域。

极氪和领克两个品牌本就是源自一体，在极氪诞生之前，领克是吉利旗下的明星品牌，六年时间销量便破百万。

领克汽车成立于2017年，是吉利控股集团、吉利汽车与沃尔沃汽车的合资公司，而极氪的前身就是领克汽车的电动汽车事业群，2021年4月，领克ZERO CONCEPT概念车，成为极氪的001，2021年9月，其正式独立成为吉利控股集团旗下子品牌。

从关系上不难理解，就好比是"父与子"。

而且领克从一开始成立专注的路线就是中高端市场的燃油和混动市场，而极氪专注的纯电市场，两者相辅相成，互不干扰，全面覆盖市场。

极氪和领克也没让吉利失望，成为吉利孵化的乘用车双子星，在市场表现上大放异彩，不仅是销量支柱，更是吉利新能源转型的重要角色。

今年10月份，领克与极氪的销量分别超3万台和2.5万台。今年前三季度，领克销量达到16.98万辆，极氪销量则逼近15万辆，两者合计占吉利集团总销量的近30%。

随着新能源市场的发展，双方路线却开始出现了偏差，甚至出现了"打架"的情况，2023年，领克推出了EM-P超级增程电动方案，其销量随之大涨。

增程车型热卖之时，今年9月，领克还进军了纯电领域，领克旗下首款纯电轿车Z10上市。售价18.08-31.38万元，但上市后相比于混动车型销量惨淡，两个月总交付量还不足5000辆，与增程车型相比，显然领克的纯电车型出师未捷。

原因在于，车型竞品对比时，始终躲不开极氪的车型，不仅外观与极氪 X 相似，领克Z10也同样是基于吉利浩瀚架构打造，同样架构下，极氪汽车也拥有两款与领克Z10极为相似的车型，极氪007和极氪001。

曾有内部人士表示，"Z10的压力很大一部分其实来自兄弟品牌极氪。"

另外，极氪也不再执着于纯电，不久前被曝出要开始布局增程路线，且内部已经成立了项目组，涵盖SUV/MPV两个品类。

这么来看，极氪和领克的关系也错位变得重叠，双方整合也就不意外了。

02 开启聚焦整合

领克和极氪合并，不单是为了避免内耗，也符合目前吉利最新的战略方向。

今年9月，吉利控股集团发布《台州宣言》，明确了将进一步明晰各品牌定位，减少利益冲突与重复投资，提升集团运营效率行，聚焦与整合成为吉利下一步调整的主旋律。

过去十年，吉利集团一直秉承着多品牌、多渠道的发展战略，旗下拥有十余个汽车品牌，像吉利、几何、极氪、领克、睿蓝、极越、沃尔沃、极星、路特斯等一系列品牌，这些品牌定位与特色各有不同，从低端至高端，几乎完整地覆盖了汽车消费市场。

吉利集团的业务形态，曾被外界戏称"多生孩子好打架"。确实，多兵作战的路线，给吉利带来了不少的增长。

根据吉利最新发布的第三季度财报，吉利汽车实现营业收入603.78亿元，同比增长20%，单季收入创历史新高，销量也创历史新高，达到了53.4万辆，同比增长18.7%。

前三季度，吉利汽车营业收入达到了也达到了史无前例的1677亿元，同比增长36%，公司的股东应占溢利达130.5亿元，同比增长358%。

不得不承认，过去几年中国的造车新势力和传统势力，一直处在大扩张的时代，由于主品牌无法覆盖足够的市场，以致于推出子品牌、第三品牌，都希望吃到"蛋糕的全部"。

但这一过程，无法避免的会出现非必要的扩张，以至于品牌内部互相倾轧。比如吉利多品牌、多渠道战略背后，分散的研发与供应链效率，就意味着资金的重复投入与兄弟品牌的内部竞争。

所以吉利开始从战略扩张，转向战略整合。

10月9日，吉利汽车集团CEO淦家阅宣布，银河由新能源系列升级为品牌，吉利新能源将聚焦打造银河品牌，并将几何正式并入银河品牌，"GEOME"将成为银河的智能精品小车系列。

在官方的表述中，这样做就是为了响应集团的《台州宣言》。

从品牌布局上看，现在的吉利银河主要生产"大车"，几何并入后，就有了"小车"，银河的产品阵容将会更加完善，基本上能够覆盖A0级到C级，车型方面也涵盖轿车、SUV和MPV几大主流市场。

就在前不久，根据晚点Auto爆料，雷达汽车也被降级。吉利控股集团旗下新能源皮卡品牌雷达汽车，也将整合进吉利汽车集团，整合后，雷达汽车将成为吉利汽车集团的一级组织，负责人凌世权向吉利汽车集团 CEO 淦家阅汇报。

这么来看，此次领克与极氪合并，也并不意外，成为吉利品牌大调整下的第二步棋。有意思的是，除了极氪和领克的整合，极星（Polestar）可能也面临整合。

比如消息曝出安聪慧将接替沈子瑜担任极星董事长，这也被认为是极星未来将与极氪整合或协同的先兆。

显然，大扩张时代已经接近尾声，接下来是大整合时代，或者大兼并时代。不仅包括企业内部的整合，甚至还可能有外部的整合，比如车企兼并重组，淘汰弱势品牌，进入决赛圈。

吉利算是给这个大浪潮，开了个头。

#大模型系列 | 自动驾驶大模型

按照之前Vision：大模型系列00 - 前言规划，带来第5篇文章-大模型在自动驾驶的运用调研。由于大模型的强泛化能力，引起了其在自动驾驶领域的关注。传统自动驾驶主要聚焦模块化提升性能效果，存在的上限问题显而易见。另外一方面，原来学术界研究重点还是如何提高单模块的上限，比如感知/预测/强化学习/模仿学习（具体分模块介绍见Vision：自动驾驶系列00 - 前言系列），2023年得益于cvpr 2023 best paper uniad 开始才转向端到端在自动驾驶的运用。所以整体调研内容会涉及到大模型和大模型based的端到端工作，大多数paper集中在2023年度（文章新，大部分还在peer review中），很多是从arxiv上直接search得到，揉杂了很多参差不齐的文章也很正常。整体涉及约70篇左右，为了保证阅读质量和提升阅读效率，重复文章会舍弃，并首次增加推荐程度（高/中/低），来highlight推荐阅读的文章。

大模型在自动驾驶运用的方向（5个）

自动驾驶场景仿真数据生成

内容：这个跟上一篇图像生成博客Vision：大模型系列04 -文本图像生成有点相关，但这里更多是3d scene数据（包括动静态元素）和2d图像/2d环视图像等等的生成，会多涉及一些3d空间的概念。当然点云数据生成自然也是一个方向。基本的原理还是基于diffusion/nerf/guassian splat（还没来得及研究）等。
运用方向：仿真团队来做一些高级点的传感器仿真/交通流仿真/worldsim等方向的工作
可实施性：高

"world model"场景预测生成

内容：这个方向最近比较火，gaia最早提出，后来cvpr2023 tesla学者提了一下，后续工业界也赶紧跟上了。这个主要结合多模态信息（更主要是high-level commond，譬如左转）来生成预测接下来的图像和3d scene的信号。当然也可以输入一些文本（比如雨天等）做condtion，生成对应场景的数据。这个方向跟基于上一个方向-自动驾驶场景仿真数据生成基础上的，所以是渐进的关系。
"world model"打引号原因：目前大家习惯把通过加入一些condition信号就能生成图片或者video的基础模型成为"world model"，跟原本提出的概念不太一样（见前面"两个基础概念"阐述）。不过既然学术圈大家都达成共识这样提，我们就默认把自动驾驶领域的world model当作这样的定义。
但目前基于未来场景的预测，对planning和整个ad系统有什么确定性的改进，目前大家都没有在工作中提到，一种可能的影响是基于未来场景精确的预测，提升类似感知超视的感知结果或者推衍逻辑，来辅助现有模块化ad或者大模型reasoning架构的效果。
运用方向：仿真团队/端到端闭环测试团队
可实施性：高

感知自动标注

内容：这里更多是利用多模态领域的大模型的一些经验来帮助做一些图像/点云 open vocabulary（公开字典）的长尾问题的标注，并进一步提升云端标注结果的精度。
运用方向：感知团队/数据标注团队/数据挖掘团队（离线）
可实施性：高

利用多模态大模型能力做决策及规划或者end2end

内容：这个topic 算是目前大模型在自动驾驶领域研究的火热方向，但受限于其先进性和不确定性，更多工作集中在学术界。简要概括就是利用大模型的推理和泛化能力能直接接入感知或者原始sensor信号，然后做language的决策信号输出，并能对ad的各个模块有一定reasoning/justice/relection的能力。由于其耗时大和可部署性，很难短时间在边缘设备上运用起来。但其实这种交互方式就很自然，就像我开车跟租出车司机交流一样，不跟他说话时他自动开，跟他说话时，让他在前面路口左转他就能左转。希望模型蒸馏/减支，硬件创新等都能比较大的突破，期待早一日实现ai代驾司机的体验。当然云端继续验证肯定没错，证明其上限能力。
运用方向：规控团队/端到端自动驾驶方向
可实施性：低

端到端联合训练自动驾驶（不一定是大模型）

内容：这个方向其实是新型的端到端联合训练，各个模块通过feature直接共享，中间每个模块会输出一些结果。但整体planner做的比较学术，而且基于nuscene的开环测试参考意义不大。但工业界都能看到这是一步可以达到的棋，就看在planning这个模块，是采用传统的强化学习还是模仿学习来做，还是利用一些新的但是又不需要大模型这么重的算力方式来解决。
运用方向：规控团队/端到端自动驾驶方向
可实施性：中

参考核心综述paper list（7篇，强推荐3篇）