51c自动驾驶~合集6

自己的原文哦~https://blog.51cto.com/whaosoft/11584834

#DreamCar

理想开源在moving-froward场景中的3D车辆重建

Project page: https://xiaobiaodu.github.io/dreamcar-project/

Code: https://github.com/xiaobiaodu/DreamCar

以上是我们提出的方法DreamCar 在实际应用场景中的效果。

摘要

自驾行业通常雇用专业艺术家来制作精美的3D汽车模型。然而，制作大规模的数字资产成本高昂。由于已经有许多包含大量汽车图像的数据集，我们专注于从这些数据集中重建高质量的3D汽车模型。然而，这些数据集只包含前行场景中汽车的一侧图像。我们尝试使用现有的生成模型提供更多的监督信息，但由于这些模型是在合成数据集上训练的，而不是专门针对汽车的数据集，因此难以在汽车上泛化。此外，在处理野外图像时，由于相机姿态估计的误差较大，重建的3D汽车纹理会出现错位。这些限制使得以前的方法难以重建完整的3D汽车。为了解决这些问题，我们提出了一种新方法，名为DreamCar，能够在给定少量图像甚至单张图像的情况下重建高质量的3D汽车。为了使生成模型更具泛化性，我们收集了一个名为Car360的汽车数据集，包含超过5600辆汽车。利用这个数据集，我们使生成模型对汽车更加鲁棒。我们使用特定于汽车的生成先验，通过分数蒸馏采样来引导重建。为了进一步补充监督信息，我们利用汽车的几何和外观对称性。最后，我们提出了一种姿态优化方法，通过校正姿态来解决纹理错位问题。大量实验表明，我们的方法在重建高质量3D汽车方面显著优于现有方法。8

以上是我们提出的方法DreamCar 在nuscenes 数据集中重建大量3D汽车的效果。

方法

我们提出的方法DreamCar，通过利用多种关键技术从有限数量的图像中重建高质量的3D汽车模型。首先进行图像分割和镜像操作，以创建额外的训练视图，然后使用Nuscenes等数据集估算和优化相机姿态。该方法采用逐步由粗到细的几何重建方法，使用NeRF、Neus和DMTET等模型，并结合法线和深度图约束以确保精度。纹理优化通过生成模型和DreamBooth实现，以获得逼真的结果，并使用PoseMLP优化相机姿态以纠正纹理错位。

提出的Car360 数据集

本研究旨在从有限数量的图像（通常为一到五张）中重建完整的3D模型。然而，仅依靠这些监督信息是不够的。因此，我们在方法中集成了最近的大规模3D感知扩散模型Zero-123-XL的生成先验。我们发现，由于该模型在大规模合成数据集（如Objaverse）上训练，而不是专门针对汽车的数据集，因此在实际的汽车主题上难以泛化。在本研究中，我们收集了一个名为Car360的汽车数据集，其中包含5600辆合成汽车，以增强我们的模型在实际汽车上的鲁棒性。

#xx智能有哪些细分研究方向

xx智能（Embedded AI）对于实现通用人工智能（AGI）至关重要，是连接网络空间和物理世界的各种应用的基础。最近，多模态大模型（MLM）和世界模型（WMs）的出现因其卓越的感知、交互和推理能力而引起了人们的广泛关注，使其成为xx智能体大脑的一种有前景的架构。然而，在传播时代，还没有对嵌入式AI进行全面的调查。

在本次调查中，我们全面探讨了xx智能的最新进展。我们的分析首先浏览了xx机器人和仿真引擎的代表性作品的前沿，以充分了解研究重点及其局限性。然后，我们分析了四个主要的研究目标：1）xx感知，2）xx交互，3）xx代理，4）仿真到真实的适应，涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了虚拟和真实化身代理中MLM的复杂性，强调了它们在促进动态数字和物理环境中的交互方面的重要性。最后，我们总结了xx人工智能的挑战和局限性，并讨论了它们未来的潜在发展方向。我们希望这项调查能够为研究界提供基础参考，并激发持续创新。

开源汇总链接：https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

与以往研究的不同之处：尽管已经有几篇关于xx智能的调查论文，但其中大多数已经过时，因为它们是在2023年左右开始的起步时代之前发表的。据我们所知，2023年之后只有一篇综述论文只关注视觉语言动作体现的人工智能模型。然而，MLM、WMs和xx代理并没有得到充分考虑。此外，体现机器人和仿真引擎的最新发展也被忽视了。为了解决这个快速发展的领域中综合调查论文的稀缺问题，我们提出了这项综合综述，涵盖了代表性的xx机器人、仿真引擎和四个主要研究任务：xx感知、xx交互、xx代理和仿真真实机器人控制。

总之，这项工作的主要贡献有三方面。首先，它对xx人工智能进行了系统回顾，包括xx机器人、仿真引擎和四个主要研究任务：视觉主动感知、xx交互、xx代理和仿真机器人控制。据我们所知，这是第一次从基于MLM和WMs的网络和物理空间对齐的角度对xx人工智能进行全面调查，对现有研究进行了全面的总结和分类。其次，它考察了嵌入式人工智能的最新进展，提供了跨多个仿真引擎和数据集的当前工作的全面基准测试和讨论。第三，它确定了体现人工智能AGI未来研究的几个研究挑战和潜在方向。

xx机器人

Embodied agent积极与物理环境交互，涵盖了广泛的实施例，包括机器人、智能电器、智能眼镜、自动驾驶汽车等。其中，机器人是最突出的实施例之一。根据应用，机器人被设计成各种形式，以利用其硬件特性完成特定任务，如图4所示

Fixed-base Robots

如图4（a）所示，固定基座机器人因其紧凑性和高精度操作而广泛应用于实验室自动化、教育培训和工业制造。这些机器人具有坚固的底座和结构，可确保操作过程中的稳定性和高精度。配备高精度传感器和执行器，可实现微米级精度，使其适用于需要高精度和可重复性的任务

Wheeled Robots and Tracked Robots

对于移动机器人来说，它们可以面对更复杂和多样化的应用场景。如图4（b）所示，轮式机器人以其高效的机动性而闻名，广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高、在平面上的快速移动能力。这些机器人通常配备激光雷达和摄像头等高精度传感器，实现自主导航和环境感知，使其在自动化仓库管理和检查任务中非常有效。

相比之下，履带式机器人具有强大的越野能力和高机动性，在农业、建筑和灾难恢复方面显示出巨大的潜力，如图4（c）所示。轨道系统提供了更大的地面接触面积，分散了机器人的重量，降低了在泥泞和沙地等软地形中沉没的风险。

Quadruped Robots

四足机器人以其稳定性和适应性而闻名，非常适合复杂的地形探索、救援任务和军事应用。受四足动物的启发，这些机器人可以在不平坦的表面上保持平衡和机动性，如图4（d）所示。多关节设计使它们能够模仿生物运动，实现复杂的步态和姿势调整。高可调性使机器人能够自动适应不断变化的地形，提高机动性和稳定性。

Humanoid Robots

人形机器人以其类似人类的形态而闻名，在服务业、医疗保健和协作环境等领域越来越普遍。这些机器人可以模仿人类的动作和行为模式，提供个性化的服务和支持。如图4（e）所示，它们灵巧的手设计使它们能够执行复杂而复杂的任务，使其有别于其他类型的机器人。

Biomimetic Robots

不同的仿生机器人通过仿真自然生物的有效运动和功能，在复杂和动态的环境中执行任务。通过仿真生物xx的形态和运动机制，这些机器人在医疗保健、环境监测和生物研究等领域显示出巨大的潜力。如图4（f）所示。

xx仿真

xx仿真对于嵌入式人工智能至关重要，因为它们提供了具有成本效益的实验，通过仿真潜在的危险场景来确保安全性，在不同环境中进行测试的可扩展性，快速原型制作能力，更广泛的研究社区的可访问性，精确研究的受控环境，训练和评估的数据生成，以及算法比较的标准化基准。为了使代理能够与环境交互，有必要构建一个逼真的仿真环境。这需要考虑环境的物理特性、目标的属性及其相互作用。

本节将分两部分介绍常用的仿真平台：基于底层仿真的通用仿真引擎和基于真实场景的仿真引擎。

General Simulator

真实环境中存在的物理相互作用和动态变化是不可替代的。然而，在物理世界中部署xx模型通常会带来高昂的成本，并面临诸多挑战。xx人工智能的最终目标是将发现从虚拟环境转移到现实世界的应用程序中。研究人员可以选择最适合他们需求的仿真引擎来帮助他们的研究。通用仿真引擎提供了一个紧密模拟物理世界的虚拟环境，允许算法开发和模型训练，这提供了显著的成本、时间和安全优势。

• Isaac Sim

• Gazebo

• PyBullet

表二列出了10种用途仿真引擎的关键特征和主要应用场景。研究人员可以根据自己的具体研究需求选择最合适的仿真引擎，从而加快嵌入式人工智能技术的开发和应用。图5显示了通用仿真引擎的可视化效果。

Real-Scene Based Simulators

在家庭活动中实现普遍的xx代理一直是xx人工智能研究领域的主要焦点。这些xx代理需要深入了解人类的日常生活，并在室内环境中执行复杂的xx任务，如导航和交互。为了满足这些复杂任务的需求，模拟环境需要尽可能接近现实世界，这对仿真引擎的复杂性和真实性提出了很高的要求。这导致了基于现实世界环境的仿真引擎的创建。这些仿真引擎主要从现实世界收集数据，创建逼真的3D资产，并使用UE5和Unity等3D游戏引擎构建场景。丰富而逼真的场景使基于现实世界环境的仿真引擎成为家庭活动中xx人工智能研究的首选。

• AI2-THOR

• Matterport 3D

• Virtualhome

• Habitat

• SAPIEN

• iGibson

• TDW

表三总结了基于上述真实场景的所有模拟器。Sapien因其设计而脱颖而出，专门为模拟与门、橱柜和抽屉等关节目标的交互而量身定制。VirtualHome以其独特的环境图而闻名，它促进了基于环境自然语言描述的高级体现规划。虽然AI2Thor提供了丰富的交互式场景，但这些交互与VirtualHome中的交互类似，都是基于脚本的，缺乏真正的物理交互。这种设计足以满足不需要细粒度交互的具体任务。iGibson和TDW都提供了精细的压花控制和高度模拟的物理交互。iGibson擅长提供丰富而逼真的大规模场景，使其适用于复杂和长期的移动操作，其中TDW允许用户在场景扩展方面有更大的自由度，并具有独特的音频和灵活的流体模拟功能，使其在相关模拟场景中不可或缺。Matterport3D是一个基础的2D-3D视觉数据集，在嵌入式AI基准测试中得到了广泛的应用和扩展。虽然Habitat中的xx代理缺乏交互能力，但其广泛的室内场景、用户友好的界面和开放的框架使其在xx导航中受到高度重视。

xx感知

未来视觉感知的"北极星"体现为以视觉推理和社会智能为中心。具有xx感知的主体不太可能识别图像中的物体，必须在物理世界中移动并与环境交互。这需要对3D空间和动态环境有更深入的了解。体现感知需要视觉感知和推理，理解场景中的3D关系，并根据视觉信息预测和执行复杂的任务。

Active Visual Perception

主动视觉感知系统需要基本的能力，如状态估计、场景感知和环境探索。如图7所示，这些功能在vSLAM、3D场景理解和主动探索领域得到了广泛的研究。这些研究领域有助于开发强大的主动视觉感知系统，促进复杂动态环境中的环境交互和导航。我们简要介绍了这三个组成部分，并总结了表四中每个部分提到的方法。

1）视觉SLAM：SLAM是一种技术，可以确定移动机器人在未知环境中的位置，同时竞争性地构建该环境的地图。基于距离的SLAM使用测距仪（如激光扫描仪、雷达和/或声纳）创建点云表示，但成本高昂，提供的环境信息有限。视觉SLAM（vSLAM）使用车载摄像头捕捉帧并构建环境表示。它因其低硬件成本、小规模场景中的高精度以及捕获丰富环境信息的能力而广受欢迎。经典的vSLAM技术可分为传统vSLAM和语义vSLAM。

2）3D场景理解：3D场景理解旨在区分目标的语义，识别它们的位置，并从3D场景数据中推断出几何属性，这在自动驾驶、机器人导航和人机交互等领域至关重要。场景可以使用激光雷达或RGB-D传感器等3D扫描工具记录为3D点云。与图像不同，点云是稀疏、无序和不规则的，这使得场景解释极具挑战性。

3）主动探索：之前介绍的3D场景理解方法赋予机器人以被动方式感知环境的能力。在这种情况下，感知系统的信息获取和决策不适应不断变化的场景。然而，被动感知是主动探索的重要基础。鉴于机器人能够移动并与周围环境频繁互动，它们也应该能够主动探索和感知周围的环境。它们之间的关系如图所示。当前解决主动感知的方法侧重于与环境交互或通过改变观察方向来获得更多的视觉信息。

3D Visual Grounding

与在平面图像范围内运行的传统2D视觉基础（VG）不同，3D VG结合了目标之间的深度、视角和空间关系，为代理与环境交互提供了更强大的框架。3D VG的任务涉及使用自然语言描述在3D环境中定位目标。如表五所示，3D视觉接地的最新方法大致可分为两类：两阶段方法和一阶段方法。

1）两阶段3D视觉接地方法：与相应的2D任务类似，3D接地的早期研究主要利用了两阶段检测然后匹配的管道。他们最初使用预训练的检测器或片段从3D场景中的众多目标建议中提取特征，然后将其与语言查询特征融合以匹配目标目标。两阶段研究的重点主要集中在第二阶段，例如探索目标建议特征和语言查询特征之间的相关性，以选择最匹配的目标。Refrait3D和TGNN不仅学习将提出的特征与文本嵌入相匹配，还通过图神经网络对目标之间的上下文关系进行编码。为了增强自由形式描述和不规则点云的3D视觉基础，FFL-3DOG使用了用于短语相关性的语言场景图、用于丰富视觉特征的多级3D提案关系图和用于编码全局上下文的描述引导3D视觉图。

2）一阶段3D视觉接地方法：在图8（c）中，与两阶段3D VG方法相比，一阶段3D VGs方法集成了由语言查询引导的目标检测和特征提取，使定位与语言相关的目标变得更加容易

Visual Language Navigation

视觉语言导航（VLN）是xx智能的一个关键研究问题，旨在使代理能够按照语言指令在看不见的环境中导航。VLN要求机器人理解复杂多样的视觉观察，同时解释不同粒度的指令。VLN的输入通常由两部分组成：视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频，也可以是一组历史当前观测图像。自然语言指令包括体现代理需要达到的目标或体现代理预期完成的任务。所体现的代理必须使用上述信息从候选列表中选择一个或一系列动作，以满足自然语言指令的要求。

1）数据集如下：

2）方法：近年来，随着LLM的惊人性能，VLN取得了长足的进步，VLN的方向和重点受到了深刻的影响。永远，VLN方法可以分为两个方向：基于记忆理解和基于未来预测。

Non-Visual Perception

触觉传感器为试剂提供有关物体属性的详细信息，如纹理、硬度和温度。它允许机器人完全完成手头的高精度任务，这对物理世界中的代理至关重要。触觉感知无疑增强了人机交互，并具有巨大的前景。

对于触觉感知任务，智能体需要从物理世界收集触觉信息，然后执行复杂的任务。在本节中，如图10所示，我们首先介绍了现有类型的触觉传感器及其数据集，然后讨论了触觉感知中的三个主要任务：估计、识别和操纵。

1）传感器设计：人类触觉的原理是，皮肤在被触摸时会改变形状，其丰富的神经细胞会发送电信号，这也是设计触觉传感器的基础。触觉传感器设计方法可分为三类：非视觉、视觉和多模态。非视觉触觉传感器主要使用电气和机械原理，主要记录基本的低维传感器输出，如力、压力、振动和温度。

2）数据集：非视觉传感器的数据集包含电极值、3D净力矢量和接触位置。因此，数据集中的对象通常是力样本和抓取样本。它的任务主要是估计力类型、力值和掌握细节。

3）方法：触觉感知有很多应用，可分为三类：估计、精确的机器人操作和多模态识别任务。

4）困难：a）具有不同原理的传感器的缺点：传统传感器提供简单、有限和低维的数据，对多模态学习构成挑战。基于视觉的传感器和电子皮肤虽然提供了高精度，但成本过高。此外，基于视觉的传感器无法提供温度信息。b）数据采集的困难：触觉数据集罕见且异构，缺乏视觉等领域中标准化、广泛的存储库。数据收集尤其具有挑战性，尤其是在同时收集触觉和视觉信息时，尽管在开发简化的收集设备方面做出了一些努力。c）标准不一致的困难：市场上有各种标准和原理不一致的传感器。即使成像模式相似，基于视觉的触觉传感器的设计和校准也会导致明显的域差距。与视觉和听觉数据的标准化格式不同，触觉数据格式在传感器制造商之间差异很大，这使得从异构传感器进行大规模学习变得困难，并限制了公开触觉数据集的有用性。

xx交互

xx交互任务是指代理在物理或模拟空间中与人类和环境交互的场景。典型的xx交互任务是xx问答（EQA）和xx抓取。

Embodied Question Answering

对于EQA任务，代理需要从第一人称的角度探索环境，以收集回答给定问题所需的信息。具有自主探索和决策能力的代理不仅必须考虑采取哪些行动来探索环境，还必须确定何时停止探索以回答问题。现有的工作侧重于不同类型的问题，其中一些问题如图11所示。在本节中，我们首先介绍现有的数据集，然后讨论相关方法。

数据集如下：

方法分为以下几类：

• Neural Network Methods

• LLMs/VLMs Methods

局限性：（a）数据集：构建数据集需要大量的人力和资源。此外，大规模数据集仍然很少，评估模型性能的指标因数据集而异，使性能的测试和比较变得复杂，（b）模型：尽管LLM带来了进步，但这些模型的性能仍然远远落后于人类水平。未来的工作可能更侧重于有效地干扰代理人探索的环境信息，并指导他们根据环境记忆和问题规划行动，同时提高他们行动的可解释性。

Embodied Grasping

xx交互，除了与人类进行问答交互外，还可以包括根据人类指令执行操作，例如抓取和放置物体，从而完成机器人、人类和物体之间的交互。体现抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。xx抓取方法将传统的机器人运动学抓取与大型模型（如LLM和视觉语言基础模型）相结合，使代理能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。图12（b）展示了人机交互的概览，其中代理完成了具体的抓取任务。

1）抓握器：目前抓握技术的研究重点是两指平行抓握器和五指灵巧手。对于双指平行抓取器，抓取姿势通常分为两类：4-DOF和6-DOF。

2）数据集：最近已经生成了大量的抓取数据集。这些数据集通常包含基于图像（RGB、深度）、点云或3D场景的带注释抓取数据。

3）语言引导抓取：语言引导抓取的概念是从这种整合中发展而来的，它结合了MLM，为代理提供了语义场景推理的能力。这允许代理根据隐式或显式的人类指令执行抓取操作。图12（c）显示了近年来语言引导掌握主题的出版趋势。随着LLM的进步，研究人员对这一主题表现出越来越大的兴趣。目前，抓取研究越来越关注开放世界场景，强调开放集泛化方法。通过利用MLM的泛化能力，机器人可以在开放世界环境中以更高的智能和效率执行抓取任务。

4）端到端方法：CLIPORT是一种语言条件模仿学习代理，它将视觉语言预训练模型CLIP与Transporter Net相结合，创建了一个用于语义理解和草生成的端到端双流架构。它使用从虚拟环境中收集的大量专家演示数据进行训练，使代理能够执行语义引导的抓取。基于OCID数据集，CROG提出了一种视觉语言抓取数据集，并引入了具有竞争力的端到端基线。

5）模块化方法：F3RM试图将CLIP的文本图像先验提升到3D空间，使用提取的特征进行语言定位，然后生成草。它将精确的3D几何与2D基本模型的丰富语义相结合，利用从CLIP提取的特征通过自由文本自然语言指定要操作的对象。

这些方法通过利用端到端和模块化框架推进了语言引导抓取领域，从而增强了机器人代理通过自然语言指令理解和执行复杂抓取任务的能力。xx抓握使机器人能够与物体互动，从而提高了它们在家庭服务和工业制造中的智能和实用性。未来的研究将侧重于提高智能体的通用性，使机器人能够理解更复杂的语义，掌握更广泛的看不见的物体，并完成复杂的抓取任务。

xxagent

代理被定义为能够感知其环境并采取行动实现特定目标的自主xx。MLM的最新进展进一步将代理的应用扩展到实际场景。当这些基于MLM的代理体现在物理xx中时，它们可以有效地将其能力从虚拟空间转移到物理世界，从而成为体现代理。

为了使xx代理能够在信息丰富和复杂的现实世界中运行，开发了xx代理，以显示强大的多模态感知、交互和规划能力，如图13所示。为了完成一项任务，嵌入式代理通常涉及以下过程：1）将抽象和复杂的任务分解为特定的子任务，这被称为高级嵌入式任务规划。2）通过有效地利用体现感知和体现交互模型或利用基础模型的策略功能（称为低级体现行动计划）来逐步实现这些子任务。值得注意的是，任务规划涉及行动前的思考，因此通常在网络空间中被考虑。相比之下，行动计划必须考虑到与环境的有效交互，并将此信息反馈给任务规划者以调整任务计划。因此，对于xx代理来说，将他们的能力从网络空间推广到物理世界是至关重要的。

Embodied Multimodal Foundation Model

xx代理需要视觉识别其环境，听觉理解指令，并包含其自身状态，以实现复杂的交互和操作。这需要一个集成多种传感器模态和自然语言处理能力的模型，通过合成各种数据类型来增强智能体的理解和决策。体现多模式基础模型正在出现。谷歌DeepMind八年前开始在机器人基础模型领域进行研究，不断探索更有效地扩展模型和数据的方法。他们的研究结果表明，利用基础模型和大型、多样化的数据集是最佳策略。他们基于机器人Transformer（RT）开发了一系列作品，为未来关于xx代理的研究提供了实质性的见解。

Embodied Task Planning

如前所述，对于"把苹果放在盘子里"的任务，任务规划器会将其分为"找到苹果，摘苹果"、"找到盘子"、"放下苹果"等子任务。因为如何查找（导航任务）或拾取/放下动作（抓取任务）不在任务规划的范围内。这些动作通常在模拟器中预先定义，或在现实世界中使用预先训练的策略模型执行，例如使用CLIPort来抓取任务。主要分为以下几个模块：

• Planning utilizing the Emergent Capabilities of LLMs

• Planning utilizing the visual information from embodied perception model

• Planning utilizing the VLMs

Embodie

d Action Planning

很明显，行动规划必须解决现实世界的不确定性，因为任务规划提供的子任务的粒度不足以指导环境交互中的代理。通常，代理可以通过两种方式实现行动计划：1）使用预先训练的xx感知和xx干预模型作为工具，通过API逐步完成任务计划指定的子任务，2）利用VLA模型的固有能力来制定行动计划。此外，动作规划器的执行结果被反馈给任务规划器，以调整和改进任务规划。

• Action utilizing APIs

• Action utilizing VLA model

m-to-Real适应

xx人工智能中的模拟到真实适应是指将在模拟环境（网络空间）中学习到的能力或行为转移到现实世界场景（物理世界）的过程。它涉及验证和改进仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中稳健可靠地运行。为了实现模拟到真实的适应，体现世界模型、数据收集和训练方法以及体现控制算法是三个基本组成部分。

Embodied World Model

Sim-to-Real涉及在模拟中创建与现实世界环境非常相似的世界模型，帮助算法在传输时更好地泛化。世界模型的方法是构建一个端到端的模型，通过以生成或预测的方式预测下一个状态来做出决策，将愿景映射到行动，甚至将任何东西映射到任何东西。这种世界模型和VLA模型之间最大的区别在于，VLA模型首先在大规模互联网数据集上进行训练，以实现高级应急能力，然后与现实世界的机器人数据进行微调。相比之下，世界模型是在物理世界数据上从头开始训练的，随着数据量的增加，逐渐发展出高级功能。然而，它们仍然是低级的物理世界模型，在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景，例如自动驾驶（输入：视觉，输出：油门、刹车、方向盘）或物体分类（输入：视力、指令、数字传感器，输出：抓取目标物体并将其放置在目标位置）。它们不太适合泛化到非结构化、复杂的具体任务。

学习世界模型在物理仿真领域具有广阔的应用前景。与传统的仿真方法相比，它具有显著的优势，例如能够推理不完整信息的交互，满足实时计算要求，并随着时间的推移提高预测精度。这种世界模型的预测能力至关重要，使机器人能够发展在人类世界中操作所需的物理直觉。如图15所示，根据世界环境的学习管道，它们可分为基于生成的方法、基于预测的方法和知识驱动的方法。我们简要总结了表XI中提到的方法。

Data Collection and Training

对于模拟到真实的适应，高质量的数据很重要。传统的数据收集方法包括昂贵的设备、精确的操作，耗时且实验室密集，往往缺乏灵活性。最近，已经提出了一些高效且成本效益高的方法来收集和培训高质量的演示数据。本节将讨论在真实世界和模拟环境中收集数据的各种方法。图16显示了来自真实世界和模拟环境的演示数据。

Embodied Control

xx控制通过与环境的交互进行学习，并使用奖励机制优化行为以获得最优策略，从而避免了传统物理建模方法的缺点。具体的控制方法可分为两类：

• Deep Reinforcement Learning (DRL)

• Imitation Learning

挑战和

未来方向

尽管xx人工智能发展迅速，但它面临着一些挑战，并提出了令人兴奋的未来方向。

高质量的机器人数据集：获得足够的现实世界机器人数据仍然是一个重大挑战。收集这些数据既费时又耗费资源。仅依靠模拟数据最糟糕的是模拟到实际的差距问题。创建多样化的现实世界机器人数据集需要各机构之间密切而广泛的合作。此外，开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。目前的工作RT-1]使用了基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的效果，但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的通用化实体模型，必须构建大规模数据集，利用高质量的模拟环境数据来辅助现实世界的数据。

高效利用人类演示数据：高效利用人类展示数据涉及利用人们展示的动作和行为来训练和改进机器人系统。这个过程包括从大规模、高质量的数据集中收集、处理和学习，在这些数据集中，人类执行机器人想要学习的任务。目前的工作R3M使用动作标签和人类演示数据来学习可泛化表示，在一些机器人植草任务中显示出很高的成功率，但复杂任务的效率仍有待提高。因此，重要的是有效地利用大量非结构化、多标签和多模式的人类演示数据，结合动作标签数据来训练能够在相对较短的时间内学习各种任务的实体模型。通过有效地使用人类演示数据，机器人系统可以实现更高水平的性能和适应性，使其能够在动态环境中执行复杂的任务。

复杂环境认知：复杂环境认知是指实体主体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。基于广泛的常识，Say-Can利用了预训练的LLM模型的任务分解机制，该机制在简单的任务规划中严重依赖大量的常识，但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境，目前的工作通常依赖于预训练的LLM的任务分解机制，使用广泛的常识知识进行简单的任务规划，同时缺乏对特定场景的理解。提高复杂环境中的知识转移和泛化能力至关重要。一个真正通用的机器人系统应该能够在各种看不见的场景中理解和执行自然语言指令。这需要开发适应性强、可扩展的嵌入式代理架构。

长期任务执行：执行单个指令通常涉及机器人的长期任务，例如"清洁厨房"等命令，其中涉及重新排列物体、扫地、擦桌子等活动。成功完成这些任务需要机器人能够在较长的时间跨度内计划和执行一系列低级动作。虽然目前的高级任务规划人员已经取得了初步的成功，但由于缺乏对具体任务的调整，他们在各种情况下往往被证明是不够的。应对这一挑战需要培养具备强大感知能力和大量常识知识的高效规划者。

因果关系发现：现有的数据驱动的实体代理根据数据中的内在相关性做出决策。然而，这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系，从而导致有偏见的策略。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此，xx代理由世界知识驱动，能够自主进行因果推理，这一点很重要。通过交互理解世界，并通过溯因推理学习其工作原理，我们可以进一步提高多模态xx代理在复杂现实环境中的适应性、决策可靠性和泛化能力。

持续学习：在机器人应用中，持续学习对于在不同环境中部署机器人学习策略至关重要，但它仍然是一个很大程度上未被探索的领域。虽然最近的一些研究考察了持续学习的子主题，如增量学习、快速运动适应和人类在环学习，但这些解决方案通常是为单一任务或平台设计的，还没有考虑基础模型。开放式研究问题和可行的方法包括：1）在对最新数据进行微调时，将不同比例的先验数据分布混合到所有灾难性遗忘中，2）从先验分布或课程中开发高效的原型，用于学习新任务时的任务推理，3）提高在线学习算法的训练稳定性和样本效率，4）确定将大容量模型无缝整合到控制框架中的原则性方法，可能通过分层学习或慢速快速控制，用于实时推理。

统一评估基准：虽然存在许多用于评估低级控制策略的基准，但它们在评估的技能方面往往存在很大差异。此外，这些基准测试中包含的对象和场景通常受到模拟器约束的限制。为了全面评估实体模型，需要使用逼真的模拟器进行包含各种技能的基准测试。关于高级任务规划者，许多基准侧重于通过问答任务评估规划能力。然而，一种更可取的方法是同时评估高级任务规划器和低级控制策略，以执行长期任务并衡量成功率，而不是仅仅依赖于对规划器的孤立评估。这种综合方法对嵌入式人工智能系统的能力进行了更全面的评估。

结论

xx人工智能使智能体能够感知和交互来自网络空间和物理世界的各种物体，这对实现AGI具有重要意义。本次调查广泛回顾了xx机器人、模拟器、四种具有代表性的xx任务：视觉主动感知、xx交互、xx代理和模拟现实机器人控制，以及未来的研究方向。对xx机器人、模拟器、数据集和方法的比较总结清晰地展示了xx人工智能的最新发展，这极大地有利于沿着这一新兴和有前景的研究方向进行未来的研究。

#Any2Point

赋能多模态大型模型以实现高效的3D理解

最近，大型基础模型已成为备受瞩目的焦点，在广泛的场景中取得了卓越的性能。由于3D数据的稀缺性，人们已经做出了许多努力，将预训练的Transformer模型从视觉领域迁移到3D领域。然而，这种从2D到3D的方法仍然受到限制，因为可能会丢失空间几何信息，并且计算成本高昂。更重要的是，这些框架主要是为2D模型设计的，缺乏通用的任何到3D的范式。这里介绍了Any2Point，这是一种参数高效的方法，用于增强任何模态的大型模型（视觉、语言、音频）以进行3D理解。给定来自任何源模态的冻结Transformer模型，我们提出了一种3D到任何（1D或2D）的虚拟投影策略，该策略将输入的3D点与源模态内的原始1D或2D位置相关联。这种机制能够为每个3D标记分配一个与预训练模型配对的位置编码，从而避免了真实投影导致的3D几何信息丢失，并更好地激励Transformer利用1D/2D位置先验进行3D学习。然后，在每个Transformer block中，我们插入了一个任何到3D的引导适配器模块，以实现参数高效的微调。该适配器结合了来自源模态的先验空间知识，以指导3D标记的局部特征聚合，从而强制任何模态的Transformer进行语义适应。这里进行了广泛的实验，以展示方法的有效性和效率。代码已发布在https://github.com/Ivan-Tang-3D/Any2Point。

行业背景介绍

随着模型参数和训练数据量的不断增长，大型基础模型在多种领域和任务中获得了前所未有的关注。许多大型模型已经针对自然语言处理进行了预训练，包括BERT、T5以及GPT系列，以及用于视觉理解的模型，如DINOV2、MAE、以及ViT-22B。现有工作还探索了高效的微调技术，以将预训练的大型模型迁移到各种下游任务中，并持续取得了出色的性能。同时，3D视觉理解也是一个重要课题，其丰富的几何表示有助于许多应用的发展。然而，由于缺乏大规模的3D数据，与语言和二维视觉相比，3D基础模态的发展明显滞后。具体来说，高质量3D数据的获取和标注需要昂贵的资源和人力，而合成3D数据训练则缺乏分布多样性和实际应用。

因此，一些先前的工作已经将从其他模态（主要是2D视觉）预训练的模型迁移到3D模态，利用来自不同源的大量预训练知识。我们将现有的2D到3D的工作分为两组。1) 数据模态转换。这类方法涉及将3D点云投影到2D图像中，然后将其输入到2D预训练模型中。尽管在下游任务中取得了令人瞩目的性能，但模态转换过程不可避免地会导致3D数据中空间信息的丢失，从而阻碍了3D理解的全部潜力。2) 跨模态知识蒸馏。这些方法涉及将2D或视觉-语言模型的预训练知识转移到新训练的3D模型中。它们不仅需要在训练过程中前向传播2D和3D模型，而且还高度依赖于大规模的配对2D-3D数据。这导致了巨大的计算成本和数据工程工作，限制了它们的高效实现能力。除了上述问题外，更重要的是，当前的方法大多侧重于从2D视觉到3D点云的模型适应，而不是其他模态的通用方法。因此，我们提出一个问题：能否开发一个通用的任何到3D的范式，以增强任何模态的大型模型，从而实现高效且有效的点云理解？

为了解决这个问题，这里提出了Any2Point，一个统一的任何到3D的框架，它利用参数高效的微调（PEFT）将任何1D（语言）或2D（图像/音频）大型模型迁移到3D领域，如图1所示。与先前的方法不同，Any2Point避免了点云投影，从而减轻了3D信息的丢失，并直接对来自源模态的预训练模型进行微调，通过知识蒸馏节省资源。具体来说，给定一个任何模态的预训练Transformer，首先引入了一个3D到任何（1D或2D）的虚拟投影机制。该机制在输入3D点和它们虚拟投影的1D线或2D平面之间建立了位置映射。这使我们能够使用预训练大型模型源模态的原始位置嵌入来编码3D坐标。这样，我们不再需要进行真正的投影而丢失3D几何形状，同时更好地促进预训练的Transformer利用其原始的1D/2D位置先验来获取3D特征。然后，对于每个Transformer块，我们插入了一个用于PEFT的任何到3D引导适配器模块。该适配器利用1D/2D空间引导来聚合3D标记的局部语义，促进细粒度的特征交互。之后，根据不同的1D/2D先验对3D特征进行自适应集成，从而获得更优的3D表示。

在多个任务上的广泛实验表明，Any2Point框架在仅使用1.0%的可训练参数的情况下，相比当前的3D预训练模型实现了卓越的性能。使用预训练的CLIP文本编码器，Any2Point仅微调了0.8M参数，在ScanObjectNN数据集上达到了91.9%的准确率，比先前的最先进（SOTA）3D预训练模型高出+1.3%，在ModelNet40数据集上达到了94.3%的准确率。此外，Any2Point还通过使用包括2D视觉、语言和音频在内的不同模态的其他预训练模型，实现了相当的结果和效率，验证了提出的方法的鲁棒性。主要贡献如下：

• 为了实现一个通用的任何到3D的迁移框架，这里提出了Any2Point，它赋能了任何模态的预训练大型模型（如2D视觉、语言和音频）以实现高效的3D理解。

• 引入了两项技术，即3D到任何虚拟投影和任何到3D引导适配器，以有效解决当前方法中的问题，如3D几何信息丢失和过高的资源成本。

• Any2Point在多个任务上相比之前的SOTA 3D预训练模型实现了卓越的性能。值得注意的是，通过利用来自不同模态（如2D视觉、语言和音频）的预训练模型，这些具有竞争力的结果仍然保持一致。

Any2Point结构

1）方法概述

问题定义。给定来自任何模态（如视觉、语言和音频）的预训练Transformer，目标是以有效且高效的方式赋予其3D理解能力。这里并不打算在3D数据上进行全面微调，而是寻求一种参数高效的解决方案，同时保持源Transformer冻结，因为它们在有限的3D数据集上可能会因为大规模参数而导致高计算成本和过拟合问题。一般根据预训练数据的维度将源模型分为两类，分别称为1D Transformer和2D Transformer。1D Transformer专门用于处理序列数据，以语言模型为例，如RoBERTa、T5和CLIP的文本编码器。2D Transformer擅长处理2D空间数据，包括视觉模型，如DINOv2和DeiT，以及音频模型，如ImageBind音频编码器和SSAST。

模型流程。Any2Point的总体范式如图2所示，为了对输入的点云进行编码，丢弃了源Transformer中的原始嵌入模块（例如，1D语言模型中的分词器和2D视觉/音频模型中的卷积），并采用了一个3D小型网络来进行点云分词。在此基础上，编码后的3D分词首先被送入3D到任何模态的虚拟投影模块进行位置编码，然后送入冻结的1D/2D Transformer中，并配备了任何到3D的引导适配器。前者机制旨在为每个3D分词分配在源模态内的位置信息，而后者则是为了进行自适应的1D/2D引导下的3D表示学习。请注意，由于源Transformer保持冻结状态，因此只有初始分词网络和插入的适配器是可学习的，以实现参数高效的微调。

2）3D-to-any Virtual Projection

目前许多2D到3D的方法研究，都是将3D点云投影到多视图图像中，以满足预训练的2D模型的输入模态。这种降维过程可能会导致3D几何形状和深度测量的信息丢失，从而导致3D特征编码不足。此外，这些方法仅在2D图像中的大型模型上进行了验证，而没有考虑其他模态，如语言和音频。因此，我们提出了一种3D到任何模态的虚拟投影策略，该策略可以减轻几何损失，并且可以推广到任何1D/2D预训练模型，如图3所示。

3D空间中的分词。为了避免任何信息退化，这里直接在3D空间中对输入的点云进行分词，以便后续的1D/2D Transformer处理。具体来说，采用了一个包含小规模参数的3D小型网络，它是Point-PN的一个更轻量级的变体。分词过程包括使用最远点采样进行点数下采样，使用k最近邻（k-NN）算法进行局部聚合，以及使用可学习的线性层进行特征编码。之后，我们将原始点云转换为高维向量，获得N个3D分词作为，其中表示它们的3D坐标。

虚拟投影的动机。位置编码（PEs）是Transformer模型中位置信息的唯一指示器，因为内部的注意力机制是置换不变的，即它将以不同顺序处理的每个分词视为相同。因此，对于1D/2D Transformer来说，理解3D位置信息的一种直接方式是将新的3D PEs与3D分词结合起来。然而，源Transformer是在与它们在1D/2D空间中的原始PEs配对的情况下进行预训练的，这导致了冻结的1D/2D权重与新学习的3D PEs之间的语义差异。为了解决这个问题，将3D分词虚拟地投影到源模态中，并获得相应的1D/2D PEs，以便更好地与Transformer对齐。

3D到2D的虚拟投影。对于2D视觉和音频模态中的2D Transformer，将每个3D坐标虚拟地投影到M个视图中，推导出对应的2D坐标作为。这M个不同的视角能够在2D空间内提供多样的位置关系。这里采用了PointCLIP中的简单投影方法，且没有可学习的参数。重要的是，并没有真正生成投影后的多视图图像，而只是旨在获得虚拟的2D位置。然后，根据预训练Transformer中的原始2D PEs，为每个3D分词（例如Ti）分配M个不同的PEs，表示为。

3D到1D的虚拟投影。类似地，对于语言模态中的1D Transformer，我们将3D坐标虚拟地投影到不同的1D直线上。为了与2D模态中的数量保持一致，我们也选择了M条穿过点云中心的直线，这些直线具有M个均匀的旋转角度。

在1D/2D位置编码中编码3D位置。在获取对应的1D/2D位置编码后，我们将它们平均作为整体位置指示器，并将其与3D标记（如Ti）结合，通过以下方式：

3）Any-to-3D Guided Adapter

与现有的基于蒸馏的方法不同，我们直接将编码后的3D标记输入到预训练的1D/2D Transformer中。尽管3D标记的位置编码（PEs）已经与源模型对齐，但其他模态预训练得到的完全冻结的权重仍然受限于学习优越的3D表示。考虑到这一点，我们在每个Transformer块中引入了一个可学习的任意到3D引导适配器，如图4所示。适配器被插入到前馈网络（FFN）之后，并进一步融合了1D/2D先验知识，以实现参数高效的微调。

插入适配器的动机。源Transformer中的自注意力机制通常关注全局上下文中的长距离标记交互，这缺乏局部特征提取。然而，详细的空间几何形状对于3D形状的细粒度理解也是至关重要的。为了弥补这一差距，我们利用提出的适配器层来专门捕获局部邻域内的3D语义。此外，如上所述，由于源Transformer由1D/2D位置编码驱动，因此简单地将FPS（最远点采样）和k-NN（k最近邻）用于3D局部分组可能会导致位置不一致。因此，我们进一步设计了一种1D/2D引导聚合策略和一种自适应的任意到3D集成方法，以实现稳健的3D细粒度编码。

1D/2D引导下的局部聚合。在适配器中，首先根据1D/2D位置先验将3D标记分组到不同的局部邻域中，以更好地对齐所采用的1D/2D位置编码（PEs）。对于M个不同的视图/线，我们执行M个并发的局部聚合过程，以充分利用不同的投影视角。具体而言，对于2D Transformer，将每个虚拟投影图像（如第j个视图）划分为均匀的局部2D块，并根据它们的2D位置将处于同一块中的3D标记分组为一个邻域。对于1D Transformer，我们类似地将每个虚拟投影线（如第j个方向）划分为均匀的局部1D段，并根据它们的1D位置将不同段中的3D标记分组。在此基础上，我们为每个1D/2D邻域内的3D标记采用一个自注意力层，执行由1D/2D先验指导的局部特征交互。然后，我们采用池化和传播操作将局部聚合特征传播到同一邻域内的每个点。

自适应任意到3D集成。在并行局部聚合之后，我们获得M组3D标记，每组代表一个2D视图或1D线。由于不同的投影视角通常对3D表示具有不同的重要性，我们提出了一种自适应的任意到3D集成方法来聚合每个标记的M个特征。我们将此阶段具有M组特征的第i个3D标记表示为。为了正确指示每个视图/线的相对重要性，我们还采用了一个独立于M个2D引导局部聚合的3D特征转换分支。这个非参数分支仅包含3D空间中的局部分组、局部组内的特征平均池化以及传播操作，将适配器之前的3D标记转换为自适应集成的特征基线，表示为。然后，我们通过余弦相似度计算不同视图/线的相对权重，并最终聚合它们的特征以获得最终输出，如下所示：

通过集成策略，将M个具有动态权重的不同特征进行融合，使得适配器能够自适应地确定哪个视图/线更为关键，从而贡献出高质量的适配特征。

实验对比

1）实验设置

ScanObjectNN 数据集

ScanObjectNN 数据集由现实世界中的3D物体扫描组成，被分为15个不同的类别。我们选择了最具挑战性的PB-T50-RS划分来测试Any2Point框架的性能，且不使用投票策略。对于所有模型，都采用了AdamW优化器和CosineAnnealing调度器。初始学习率设置为5e-4，权重衰减因子为0.05。以32的bs对模型进行了300个轮次的微调。在数据增强方面，使用了随机缩放、平移和旋转。对于语言、2D视觉和音频模态，分别选择了CLIP文本编码器、DINO V2和ImageBind音频编码器作为预训练模型。对于这三个模型，Transformer架构是相同的：一个具有768个特征通道和1024个输入点数的12块编码器。在3D到任意模态的虚拟投影中，超参数M设置为6，且对于任意模态的Transformer使用相同的角度。为了匹配预训练模型中原始位置编码的形状，在语言模态下将3D点虚拟投影到长度为77、线大小为2的1D线段上；在2D视觉模态下投影到一个尺寸为512x512、块大小为26的2D平面上；在音频模态下则投影到一个尺寸为192x304、块大小为16的2D平面上。

ModelNet40 数据集

ModelNet40数据集包含40类合成的3D CAD模型，共有9,843个训练样本和2,468个测试样本。在ModelNet40的实验中，采用了与ScanObjectNN相同的微调设置和相同的预训练模型。在数据增强方面，使用了默认的随机缩放和平移。值得注意的是，在测试过程中，没有使用投票策略。

#EV-Voxel

自动驾驶中占用预测的快速准确方法

占用预测在自动驾驶（AD）中扮演着至关重要的角色，因为它具有细粒度的几何感知和通用目标识别能力。然而，现有的方法往往会产生较高的计算成本，这与AD的实时需求相矛盾。

为此，作者首先评估了大多数公开可用方法的速度和内存使用情况，旨在将重点从单纯优先考虑准确度转向同时考虑效率。接着，作者确定了一个在实现快速和准确性能方面的核心挑战：几何与语义之间的强烈耦合。

为了解决这个问题，作者采取了以下措施：

作者提出了一个几何-语义双分支网络（GSDBN），采用混合的鸟瞰图（BEV）- Voxel 表示。在BEV分支中，引入了BEV Level 的时序融合模块和U-Net编码器以提取密集的语义特征。在 Voxel 分支中，作者提出了一种大核重新参数化的3D卷积来细化稀疏的3D几何并减少计算量。此外，作者还提出了一个新颖的BEV- Voxel 提升模块，它将BEV特征投影到 Voxel 空间以实现两个分支的特征融合。

除了网络设计之外，作者还提出了一个几何-语义解耦学习（GSDL）策略。该策略最初使用准确的几何 GT 深度学习语义，然后逐渐混合预测的深度以使模型适应预测的几何。在广泛使用的Occ3D-nuScenes基准上的大量实验证明了作者方法的优势，它实现了39.4 mIoU的准确度，同时保持了20.0 FPS的处理速度。与CVPR2023 3D占用预测挑战赛的获胜者FB-OCC相比，这个结果大约快了3倍，并且mIoU提高了1.9。

1 Introduction

基于视觉的占用预测[1]利用 ego 车辆的环视摄像头图像来估计 Voxel 空间内的物体占用和语义。与3D目标检测[15, 22, 37]相比，它提供了更细粒度的3D场景感知，并产生了一种无需激光雷达的替代方案。此外，通过确定网格单元内的物体存在，占用预测模型可以有效识别一般物体，有效处理词汇外和异常障碍物。

尽管具有这些优势，现有方法通常受限于较低的计算速度和较高的内存使用，这是由于3D Voxel 特征的高计算成本所致。这些限制阻碍了它们在配备车载GPU的自动驾驶车辆中的应用。为了将重点从单纯优先考虑准确性转向同时考虑部署友好性，作者对大多数可用的公共方法进行了广泛的速度和内存使用评估。

图1：占用预测方法在Occ3D-nuScenes[32]基准上的推理速度（FPS）和准确性（mIoU）。GSD-Occ在实时性方面具有明显的准确性优势。

通过对现有方法的广泛回顾和评估，作者确定了一个实现快速和准确性能的核心挑战：几何与语义之间的强烈耦合。如图2所示，几何预测（深度）作为2D到3D特征投影的输入，并影响下游的语义分类。因此，预测深度的不准确会破坏特征的判别力，并增加优化难度。为了解决这个问题，作者提出从网络设计和学习策略两个角度解耦几何学习和语义学习。

在网络设计方面，现有方法主要依赖重的3D网络[11, 24]同时细化几何结构并学习语义知识。然而，3D网络的高计算成本对于实时方法是难以承受的。最近，一些研究[10, 38]将3D Voxel 特征压缩为鸟瞰图（BEV）特征以提高效率，但它们通常无法达到满意的准确度（例如，图1中的FastOcc[10]），因为BEV表示丧失了高度信息[24]。因此，采用结合了BEV表示的计算效率和 Voxel 表示的几何完整性的混合BEV- Voxel 表示，既是自然而然的，也是大有希望的。为此，作者提出了一个基于两种原则指导的几何-语义双分支网络（GS-DBN）："稀疏几何"和"密集语义"。在BEV分支中，作者采用了具有U-Net[29]结构的鸟瞰图 Level 时间融合和一个2D语义编码器来提取密集的语义特征。在 Voxel 分支中，作者提出了一个具有重参化3D大核卷积的3D几何编码器，它通过增强感受野来细化稀疏的几何结构，并通过重参化技术减少计算量。为了融合两个分支的特征，作者提出了一个BEV- Voxel 提升模块，它沿着高度维度将鸟瞰图 Level 的语义特征投影到 Voxel 空间，从而有效地恢复丢失的高度信息。

关于学习策略，继Lift-Splat-Shoot (LSS) [26]之后，几乎所有现有方法都直接使用预测深度进行2D到3D视角转换。然而，它们忽略了预测深度并不总是准确，尤其是在训练的早期阶段，这加剧了耦合问题，并导致优化不稳定。受到语言模型[2, 27, 28]的启发，这些模型提供顺序的 GT 标记来预测下一个标记，作者在训练期间用 GT 深度替换预测深度进行2D到3D视角转换。然而，当在测试中使用预测深度时，这种策略表现不佳，因为模型没有适应预测深度，并且无法校正预测几何中的错误。为此，作者引入了一种几何-语义解耦学习（GSDL）策略。最初，作者使用 GT 深度进行2D到3D视角转换，以保持准确的几何结构，便于进行孤立的语义学习。逐渐地，作者将 GT 深度与预测深度混合，使模型能够学习细化预测的几何形状。通过解耦几何细化与语义知识的学习，作者有效地降低了优化难度，在不产生额外部署成本的情况下实现了进一步的准确度提升。

作者的贡献可以总结如下：

作者对大多数公开可用的方法的速度和内存使用进行了广泛评估，旨在将关注点从单纯优先考虑准确度转向同时考虑部署友好性。

作者提出了一种双分支网络，采用混合BEV- Voxel 表示，将稀疏几何学习和密集语义学习分离，确保了计算效率和几何完整性。

作者提出了一种新颖的学习策略，以解耦几何细化和语义知识的学习，这在各种预训练模型和方法中均实现了稳定的准确度提升。

作者提出了GSD-Occ，一种几何-语义解耦占用预测器，为实时占用预测建立了新的技术水平，实现了39.4 mIoU和20.0 FPS。

2 Related works

基于视觉的鸟瞰图感知。鸟瞰图（BEV）感知方法[16]最近取得了显著进展，由于其计算效率和丰富的视觉语义，发展成为自动驾驶（AD）中的一个关键组成部分。通过利用2D到3D视图变换将相机图像特征投影到BEV表示中，可以将多个任务集成到一个统一框架中。视图变换大致可以分为两类：正向投影和反向投影。前者采用显式深度估计将图像特征投影到3D空间。相比之下，后者首先初始化一个BEV空间，然后通过空间交叉注意力隐式地建模深度信息。尽管BEV感知在3D目标检测方面表现出色，但在处理自动驾驶安全至关重要的极端情况和词汇外目标方面仍存在困难。为了解决这个问题，提出了3D占用预测，很快在AD中成为了一个有前景的解决方案[1]。

3D占用预测。 3D占用预测使用连续 Voxel 网格重建3D空间，这为检测一般目标提供了增强的几何信息和能力。一个直接的想法是将3D目标检测方法的BEV表示替换为 Voxel 表示，然后附加一个分割头。然而，与BEV相比， Voxel 表示带来了相当大的计算和内存成本。为了解决这个问题，TPVFormer[13]将3D空间划分为三个视图平面进行特征提取，然后通过插值恢复 Voxel 表示。SurroundOcc和CTF-Occ[32]利用多尺度编码器逐步增强 Voxel 表示。FB-OCC[21]采用正向和反向视图变换的混合来完成稀疏 Voxel 特征。COTR[24]提出了一种通过下采样获得紧凑 Voxel 表示的方法，但其特征增强网络过于庞大，显著降低了运行速度。PannoOcc[34]基于占用表示引入了一种新颖的全景分割任务，并采用稀疏3D卷积减少计算量。尽管在准确性上取得了进展，但现有方法通常受到速度和内存限制的困扰。因此，作者建立了一个包含速度和内存使用的基准，以提供更全面和公平的方法评估。

部署友好的占用预测。最近，一些研究工作关注占用预测的部署友好性。例如，FlashOcc[38]直接使用BEV表示预测几何和语义，从而降低了计算成本。同样，FastOcc[10]采用了BEV表示，但通过整合从视图变换获得的 Voxel 特征的残差结构来增强它。SparseOcc[31]采用纯稀疏 Transformer 基网络以减少计算。然而，这些方法通常只评估有限方法集的速度或内存使用。为了建立一个全面且公平的评估基准，这项工作在相同的实验环境下评估了大多数可公开获得的方法。此外，尽管现有方法在效率上有了显著提升，但它们通常无法在实时条件下达到满意的准确性。本文通过解耦几何和语义的学习，同时实现了实时和高精度的性能，以解决这一局限性。

3 Method

3.1 数据收集与预处理

在这一部分，作者将详细描述数据收集的过程以及为后续分析所做的预处理步骤。

Problem Formulation

给定来自个环视相机的图像序列，跨越帧，其中和。每帧中的相机内参和外参也是已知的。基于视觉的3D占用预测旨在估计 ego 车辆周围范围内的3D Voxel 的状态。3D Voxel 形状为（例如，在 [32] 中的 [200,200,16]），其中

Overall Architecture

图3展示了几何-语义解耦占用预测器（GSD-Occ）的概览，包括一个图像编码器来提取图像特征，一个2D到3D的视图转换将图像特征投影到3D空间，一个几何-语义双分支网络（第3.3节）以有效保持几何完整性并提取丰富的语义信息，以及一个几何-语义解耦学习策略（第3.4节）进一步强化了几何细化和语义学习的能力。

图像编码器。在第帧给定一组环视摄像头图像，表示为，作者采用一个预训练的主干网络（例如，ResNet-50 [9]）来提取图像特征，其中和分别是图像和特征的结构。是 ego-vehicle 上摄像头的数量。2D到3D视图转换。 2D到3D视图转换旨在将2D图像特征转换为 Voxel 表示。鉴于实时模型的学习能力有限，作者采用了一个由深度监督的显式视图转换模块[26]。具体来说，图像特征首先输入到DepthNet [18]中以生成预测的深度分布，其中是深度分箱的数量。通过外积，以和作为输入，可以获得伪点云特征。最后，对应用 Voxel 池化以获得 Voxel 特征，并执行下采样以降低计算复杂度。

Geometric-Semantic Dual-Branch Network

几何-语义双分支网络（GSDBN）模块背后的关键思想是采用混合的BEV- Voxel 表示方法，其中稀疏的 Voxel 特征作为"骨架"来保持3D几何信息，而计算高效的BEV特征则作为"血肉"用语义信息来完善 Voxel 特征。作者首先详细阐述了GSDBN设计的两个原则，即"稀疏几何"和"密集语义"。

（1）3D占用栅格中的稀疏几何反映了物理世界的离散化，这导致了 Voxel 特征的稀疏性，在2D到3D视图转换后，超过35%的值变为零。

（2）另一方面，密集语义对于维持模型的分类能力是必要的，因为过多的零值会严重降低性能。

然后，作者基于这两个关键原则详细介绍了GSDBN。

3.3.1 Semantic BEV Branch

图4：3D几何编码器中大型核3D卷积重参化技术的说明。

该技术采用并行的膨胀小型核3D卷积来增强非膨胀大型核3D卷积。本例展示的是。

多摄像头图像首先被送入图像 Backbone 网络以获取图像特征，并使用DepthNet [18]预测深度分布。随后，采用Lift-Splat-Shoot (LSS) [26]模块将2D图像特征显式转换为3D Voxel 特征。接着，几何-语义双分支网络利用混合的BEV- Voxel 表示有效地维持几何结构同时提取丰富的语义信息。几何-语义解耦学习策略将 GT 深度注入LSS，以分离几何校正和语义知识的学习，从而进一步提高准确性。

BEV级时间融合。

为了减少计算和内存成本，作者提出使用BEV特征代替[21]中用于时间融合的 Voxel 特征。此外，作者引入了[25]中的历史特征队列，以避免[11, 24, 38]中的耗时且重复的特征重新计算。具体来说，作者将 Voxel 特征沿着高度维度折叠以获得BEV特征，并维护一个长度为的记忆队列来存储历史BEV特征。为了将历史帧的BEV特征与当前帧融合，作者首先将它们变换到当前时间戳，然后通过2D卷积处理以获得时间BEV特征。Voxel 特征的稀疏性使得BEV特征能够保留丰富信息，从而产生可接受的准确性下降（0.69 mIoU）和显著的推理时间减少（0.025秒）。

2D语义编码器。

作者采用轻量级的2D类似UNet [30]编码器来提取富含语义信息的特征。具体来说，时间BEV特征被下采样并通过4倍上采样，使用残差融合多尺度特征。这个过程产生了语义BEV特征。

3.3.2 Geometric Voxel Branch

3D几何编码器。受[7, 8]的启发，作者通过设计一个具有大核的重新参数化的3D卷积来扩展重参化技术到3D占有预测，以进行几何编码。通过这种方式，作者可以增强 Voxel 特征的感受野以细化几何结构，同时重参化技术显著减少了推理时间。

在训练过程中，作者采用了非膨胀的小核3D卷积以及批量归一化（BN）层的多个膨胀小核3D卷积。这种组合有助于捕捉小尺度模式并增强感受野。在推理过程中，这些并行的小核3D卷积可以转换成大核卷积以提高效率。

如图4所示，作者展示了一个尺寸为等于的3D卷积核的案例。由于在输入中省略像素等同于在卷积中插入额外的零条目，具有小核的膨胀卷积可以等价地转换为具有稀疏大核的非膨胀卷积[8]。对于具有膨胀率的小型3D卷积核，这种转换可以通过转置卷积优雅地实现：

其中和表示步长。然后，稀疏核和随后的3D BN层（包含累积均值、标准差、学习到的缩放因子和学习到的偏置）可以转换为一个带有偏置向量的卷积。

最终大核的权重和偏置可以通过对小核卷积的多个并行操作中和进行求和得到：

其中是小核卷积的数量，是一个零填充函数，用于将填充至大核的大小。最终，通过使用大核的权重和偏置执行3D卷积，可以得到几何 Voxel 特征。

BEV Voxel 提升模块。为了融合BEV和 Voxel 分支的输出，作者提出了一个BEV Voxel 提升（BVL）模块，该模块将BEV特征投影到 Voxel 空间。这一设计受到LSS [26]的启发，但它是沿着高度维度投影BEV特征，而不是沿着深度维度投影图像特征。如图3所示，BVL模块应用于时序BEV特征和语义BEV特征。例如，以作为输入，一个上下文分支生成高度感知特征，而一个高度分支预测高度分布。然后，通过外积获得语义 Voxel 特征。最后，通过将几何 Voxel 特征与语义 Voxel 特征相加，然后使用转置3D卷积进行2倍上采样，得到几何-语义解耦特征：。

Geometric-Semantic Decoupled Learning

在第3.3节中，GSDBN模块通过双分支网络设计有效地缓解了几何与语义之间的耦合问题。在本节中，作者从学习的角度进一步考虑这个问题。作者关注一个对于2D到3D视角转换至关重要的组成部分，即LSS模块，它通过预测深度分布将图像特征投影到 Voxel 空间。然而，由于预测深度并不总是准确，尤其是在训练的早期阶段，这会加剧耦合问题并导致优化不稳定。

一个直观的想法是在训练期间直接用 GT 深度替换LSS中的预测深度，而在推理时使用预测深度。这种策略受到语言模型[2, 27, 28]的启发，在这些模型中，在训练期间提供顺序的真实标记以预测下一个标记，但在推理时预测完整的句子。然而，这种策略表现不佳，因为模型没有学会如何细化预测的几何形状。

为了解决这个问题，作者提出了一个几何与语义解耦学习（GSDL）策略。具体来说，在训练开始时，作者将 GT 深度引入到LSS中，这样模型可以分别专注于利用准确的 GT 几何来学习语义。随后，在训练过程中，作者逐渐将 GT 深度与预测深度混合，以使模型适应预测的几何形状。通过使用一个因子进行算术平均，可以得到混合深度：

的值由一个投影函数决定，该函数随训练迭代次数单调递增。作者首先将迭代次数的范围从转换为，其中是最大训练迭代次数，而

其中是控制混合斜率的参数。由于在训练结束时，模型获得了细化预测几何的能力，并且在推理时不再需要 GT 深度。

4 Experiments

在本节中，作者将详细阐述所进行的实验，以及实验的设计和分析结果。

Experimental Setup

作者使用Occ3D-nuScenes 基准来评估作者的模型，该基准基于nuScenes [3] 数据集，并为CVPR2023 3D占用预测挑战而构建。数据集包含1000个视频，分为700个用于训练，150个用于验证，以及150个用于测试。每个视频的关键帧包含一个32束激光雷达点云、六个来自环视摄像头的RGB图像，以及密集的 Voxel 级语义占用标注。在3D Voxel 空间中的感知范围是，每个 Voxel 的大小为 [0.4m, 0.4m, 0.4m]。Voxel 包含18个类别，其中包括16个已知目标类别，一个标记为"其他"的未知目标类别，以及一个"空"类别。遵循之前的工作 [10, 21, 32, 38]，作者使用所有类别上的平均交并比（mIoU）来评估准确性。

Implementation Details

遵循常见做法，作者采用ResNet-50[9]作为图像 Backbone 网络。作者维护一个长度为15的记忆队列以存储历史特征，并通过16帧融合时间信息。在几何编码器中的大核重参化3D卷积中，作者将卷积核的大小设置为[11, 11, 1]。在几何-语义解耦学习中，陡度参数被设置为5。在训练过程中，作者在8个Nvida A100 GPU上使用32的批处理大小。除非另有说明，所有模型都使用AdamW优化器[23]进行训练，学习率为，权重衰减为0.05，共训练24个周期。在推理过程中，作者在单个Nvidia A100 GPU上使用批处理大小为1。通过mmdetection3d代码库[5]测试FPS和内存指标。

Main Results

在表1和图1中，作者对比了GSD-Occ与先前最先进（SOTA）方法在Occ3D-nuScenes验证集上的表现。GSD-Occ在实现与非实时方法相当或更好的准确度的同时，展现了实时推理速度和低内存使用。与获得2023年CVPR占用挑战赛冠军的FB-Occ [21]相比，GSD-Occ的速度大约快了3倍，并在mIoU上提升了1.9%。相较于其他实时占用预测方法，GSD-Occ在mIoU上显著高出5.2%，并且速度甚至快于FastOCC [10]。这些结果突显了作者的方法中几何与语义解耦的有效性。当作者把GSD-Occ的输入图像大小提高到2倍时，mIoU进一步提升了2.3%，而无需任何额外修饰。推理速度降低了2倍，这表明输入大小与推理速度之间几乎呈线性关系。这一特性使得GSD-Occ能够高效处理高分辨率图像。与更近期的方法相比，GSD-Occ的mIoU仅比PannoOcc [34]低0.4%，但它速度快了大约3倍，并且只使用了大约50%的内存。尽管COTR [24]的mIoU比GSD-Occ高出2.8%，但其速度显著较慢（超过10倍）。此外，作者在表2中报告了[31]提出的RayIoU指标。与最近的SOTA方法SparseOcc [31]相比，GSD-Occ在速度更快和内存使用更低的情况下，mIoU高出4.9%。

作者在图5中进一步提供了定性结果。尽管大幅减少了计算量，作者的方法也能有效地感知几何细节（即使在第二行线索很少的情况下）和准确的语义（第三行）。此外，作者的方法在夜间条件下（第四行）也表现良好。

Ablations

在本部分中，作者在Occ3d-nuScenes验证集上进行了消融实验，以深入探究每个模块的影响。

4.4.1 Ablations on GSDBN

表3展示了结果，作者可以观察到几何-语义双分支网络（GSDBN）的每个组成部分都对整体性能有所贡献。缺乏时序融合以及2D和3D编码器的基准模型，虽然达到了快速的处理速度（27.0 FPS），但在准确性（35.11% mIoU）方面表现不足。对于时序融合，虽然应用 Voxel 特征相比于使用鸟瞰图（BEV）特征带来了0.69%的mIoU提升，但也引入了显著的推理延迟（0.029秒），相对于准确性的提升来说，这个代价是高昂的。将GSDBN模块集成到基准模型中，使得mIoU提高了3.79%，而计算成本的增加相对较小（速度从27.0 FPS降低到20.0 FPS）。这表明GSDBN通过混合BEV- Voxel 表示有效地分离了几何和语义的学习，既高效又有效。

4.4.2 Ablations on GSDL

为了证明几何-语义解耦学习（GSDL）的有效性，作者将其实施于不同的预训练模型和方法，如表格4所示。在不产生额外计算成本的情况下，GSDL在不同的预训练模型（BEVDepth [18] 和 ImageNet [6]）和方法（FB-OCC [21] 和作者的 GSD-Occ）上均实现了稳定的准确度提升。这突显了GSDL的泛化能力，其通过一种简单而有效的学习策略进一步解耦了几何与语义。

4.4.3 Additional Ablations

BVL的有效性。如表5所示，作者比较了BEV-Voxel提升（BVL）模块与其他现有方法，结果显示BVL模块在速度最快的同时达到了最高的准确度，证明了其有效性。历史帧越多越好吗？如表6所示，作者探讨了不同时间序列长度的影响：短（1），中等（7），长（15）和非常长（31）。结果表明，长时间序列融合实现了最高的准确度。由于作者使用BEV特征进行2D时间融合，即使时间序列长度增加，计算成本仍然可承受。

更大的3D卷积核是否更好？在表7中，作者展示了不同 Kernel 大小在3D重参化卷积中的结果。采用的 Kernel 大小达到了最高的准确度。这表明，校正几何误差需要相对较大的感受野，但过大的 Kernel 可能会适得其反。此外，得益于作者采用的重参化技术，推理速度从18.6 FPS显著提升到20.0 FPS。

预测和 GT 深度混合曲线应该是平滑还是陡峭？如图6所示，作者绘制了方程5的曲线，并进行了实验，以探索GSDL中不同陡度 Level 的影响。当陡度参数设置为5时，作者取得了最高的准确度。这表明过于平滑的混合曲线可能会阻碍模型适应预测深度的能力，而过于陡峭的曲线可能会使训练过程复杂化。

5 Conclusion

具体来说，作者提出了一种结合了混合BEV-Voxel表示的几何-语义双分支网络，该网络既保持了计算效率又保持了几何完整性。

此外，作者提出了一种几何-语义解耦学习策略，它将几何校正和语义知识的学习分离开来，从而在多种预训练模型和方法中一致地提高了准确度。为了验证作者方法的有效性，作者在Occ3D-nuScenes基准上比较了GSD-Occ与最近的领先（SOTA）方法。

结果表明，GSD-Occ在实时占用预测方面取得了新的SOTA性能。

#地平线正在跻身国内一流智驾行列

前几天北京强降雨，各位晚上下班没少折腾吧？

和大家一块堵在路上的，还有这两位------大众中国 CEO贝瑞德，以及地平线创始人、CEO余凯博士：

俩这么大老板，低调到拼一辆大众ID.4下班。

但背后动机不「低调」：

不期而至的北京大雨，成了地平线高阶智驾实力展示最好的舞台。

地平线智驾，什么实力？

根据官方发布的信息，这轮北京强降水持续30个小时，城区平均降水量24.3毫米，地平线所总部所在的西北部30毫米左右，已经达到大雨级别：

这种极端天气对于普通人类司机已经构成很大挑战，明显昨天路上的各类突发事故多了很多，尤其是在不规则路口转弯、汇入汇出等等复杂场景。

但地平线SuperDrive依然全程无接管，成功在暴雨中应对了一系列复杂路况。

比如在一个红绿灯已经明显不起作用的拥堵路口，完成了一次和老司机没差的博弈+左转：

不规则的施工路段，SuperDrive也成功识别了可通行区域，顺利完成左转：

以及在复杂的车流中识别出了公交车专用道，即使变道避让，也可以看成是面对拥堵情况的综合判断变道：

针对突发情况，比如鬼探头、加塞等等，也能及时避让：

还有一个城市场景高难度挑战------环岛而且是一个不规则环岛：

说两点SuperDrive最亮眼的表现，首先是避让动作，流畅优雅，也就是没有急促的刹车、猛打方向这样的动作。

第二是变道动作，旁车道空间小，多数系统会放弃变道或减速等待，但SuperDrive能根据前方空间条件主动加减速或调整转向角度，创造变道机会。

总结一下，SuperDrive在北京暴雨的测试中表现出的最大特点，反而不是零接管，而是"拟人"------驾驶策略拟人，以及执行动作拟人。

之前我们说过，各种智驾测试视频，含金量其实各有不同。通常最真实可信的，是普通用户在日常使用过程中记录的真实体验，前后不太可能有调试或剪辑，相当于智驾系统的"闭卷"考试。

还有就是车企老板的直播、4S店试乘路线等等，一般会针对特定路线进行优化，但控制不了突发情况，属于提前划过重点的"半开卷"考试。

当然也有"开卷"了，就是最常见的发布会或者官方账号发出来的"XX公里零接管"类小视频，大家也能想到，这种材料从策划到成品，最忙的要数剪辑师了。

那么地平线SuperDrive系统在昨天北京大雨中的测试，属于哪个级别？

其实一个最关键的点就能看出来：地平线的拍摄计划，可能很早就做好了，可以从视频中不少恰到好处的第三视角机位看出来。但是，昨天北京的暴雨不是地平线能预料或掌控的。

属于老师本来给你划好了重点考四则运算，但到考场上发现题目变成了微积分。

因为暴雨恶劣天气，对传感器就是一个巨大的的挑战，摄像头采集的图像质量大幅下降，雷达也会传回更多的杂波点云，以及湿滑的路面对于规控也提出更高要求。

但地平线的高阶智驾方案SuperDrive，极其出色的应对了暴雨气候。

以及从官方发布时间也能看出来。昨天北京普遍降暴雨是在晚上五六点钟开始，但地平线官方夜里11点左右就火速发布，加班加点。

按照通常的剧本，拍智驾视频遇到这样的突发，要么延后拍摄，要么后期精剪一番晚些发。不得不说地平线的团队头很铁啊，车上带着自己的大老板，还有客户爸爸的大老板，直接就开干了...

不过从另一个角度考虑，也许对地平线来说暴雨来了反而更兴奋，等的就是这样一个机会。

对技术能力欠缺的玩家来说是挑战，但于能力够强的来说，暴雨是证明实力的绝佳case：偶发，且不可复制。

背后是什么技术支撑

刚刚我们把"变道"作为一个亮点单独说，为啥？

不拟人的变道策略，基本上就是屡试屡败，最后只能提示接管，错过出口，把高阶智驾体验搞得支离破碎。

但现实却就是这样：大部分量产高阶智驾，都是用手写规则应对变道场景，判断变道时机的策略和执行方式僵硬刻板，十分劝退。

所以，变道是直接区分NOA水平高下的试金石 ；用户层面，它是智驾"可用"与否最关键的因素。

因为说实话，识别红绿灯、行人，严格跟导航这些功能，只要数据到位，没啥难的，现在基本各家都能做的很好。

地平线一直强调SuperDrive"拟人"，就是能在这些细节上给智驾体验带来巨大提升。

两个最主要的技术手段：端到端感知架构，以及数据驱动的交互式博弈算法。

一个是为了智驾系统看的更清楚更明白，一个是让智能代驾的"脑子"更灵活更高效。

端到端感知架构的优势，是避免了模块化算法架构中，数据多级传递造成的"损耗"，算法模型一端直接输入传感器数据，另一端直接输出轨迹预测，包括本车的，也包括道路其他交通参与者的。

端到端体现在SuperDrive将动态、静态、OCC（Occupancy占用网络）三网合一，统一在一个Transformer架构下，不需要对感知数据进行抽象和逐级传递，"所见即所得"：实现感知端到端同时，又保证了每个子网络的可解释性。

实际上SuperDrive的算法基础，正是来自于智能车参考前几天刚介绍过的CVPR 2023最佳论文成果------UniAD，地平线学者一作。

动态、静态、Occupancy三网合一的感知端到端架构下，有效解决感知架构时延高、规则多、负载重的问题。

感知端到端网络输出的结果，会接着进入数据驱动的交互博弈算法，这一算法也是基于蒙特卡洛树搜索的端到端深度学习算法。

名震一时的围棋AI AlphaGo背后的主要技术之一就是蒙特卡洛树搜索。简单来说，它的基础是一个概率模型，所要求解的问题是某种事件出现的概率。

在智驾场景中，这个"概率"可以是对象来车轨迹、前车变道意图、变道时多个目标的运动轨迹等等...

蒙特卡洛树搜索会通过某种"试验"的方法，得到这种事件出现的频率，或者这个随机变数的平均值。

试验方法，可以是人为定义，不过地平线选择的是通过10000小时高质量驾驶数据来训练，让算法最大程度理解效仿人类老司机的驾驶方法。

这就是上面例子中SuperDrive果断干脆变道的技术核心。

算法之外，SuperDrive"拟人化"还有一个独特优势------软硬结合，征程6系列计算硬件，CPU、BPU()、GPU、全功能的MCU四芯合一。

单颗征程6旗舰即可支持感知、规划决策、控制、座舱感知等全栈计算任务。同时,高集成度令开发难度进一步降低。

J6这一代产品，BPU纳什架构是核心，概括来说是支持大参数AI模型在车端的部署运行。

所以SuperDrive在北京暴雨遭遇战中的优秀表现，其实是"一个时代有一个时代计算架构"这个核心思想的体现。

怎么解读

地平线在北京暴雨中用智驾送老板下班，确实挺厉害的，但有啥用呢？

地平线不是一直称永远作Tier 2，专注硬件吗？

其实透过SuperDrive能力本身，地平线展现出关键的几点。

首先是证明只有在技术体系上重构、变革才能彻底解决城市NOA量产普及问题。

SuperDrive是一个最好的样板间，而实现这个目标的基础，是新的征程6系列。

而从地平线本身来说，SuperDrive方案搭配征程6系列硬件，从智能车和自动驾驶算法演变的角度设计硬件架构，提出专门为端到端模型和数据驱动算法服务的新平台。

说明生态正成为智驾的壁垒和新护城河。

最后是对于大众以及其他国际OEM来说，与地平线合资合作已经不是秘密，而联合最近安徽金标大众强调的「自主权」... whaosoft aiot http://143ai.com

合资和自主的力量对比，后续可能变数更多。

One more thing

余凯和贝瑞德乘坐的ID.4，是地平线高阶智驾方案SuperDrive的工程版，现在店里卖的ID.4量产车是没有这样的高阶城区NOA能力的。

不过这也直接证明，迪斯当年主导推动的大众新能源革命是多么的前瞻：

基础电子电气架构，仍然能支持近10年后的高阶智能驾驶功能。

迪斯的遗产，目测大众还能享用3-5年。

至于后续嘛，何小鹏又给大众续上了：

#从物理仿真和世界模型中学习xx智能

本综述聚焦xx智能在机器人研究中的前沿进展，指出实现强大xx智能的关键在于物理模拟器与世界模型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体，世界模型则赋予机器人环境内部表征能力以支持预测规划与决策。

文中系统回顾了相关最新进展，分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用，探讨了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外，还提及维护了一个包含最新文献和开源项目的资源库，网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey，旨在为xxAI 系统的发展提供全面视角并明确未来挑战。

随着人工智能与机器人技术的发展，智能体与物理世界的交互成为研究核心。xx智能强调通过与环境的物理交互实现感知、行动和认知，使机器人能基于物理世界反馈调整行为与认知，是通往通用智能的重要部分，其意义不止于物理任务执行，更通过感官输入、运动控制和认知处理的闭环整合，构成真正自主性和适应性的基础。

在智能机器人广泛部署于养老护理等现实场景的背景下，其在动态不确定环境中自主安全运行的能力至关重要，而建立科学合理的机器人智能分级系统需求迫切。尽管近期有相关评估方案、标准及综述，但缺乏整合智能认知、自主行为和社交交互维度的综合分级系统。为此，该工作提出智能机器人能力分级模型，包含从基本机械执行到高级完全自主社交智能的五个渐进级别（IR-L0 到 IR-L4），涵盖自主性、任务处理能力等关键维度，为评估和指导智能机器人发展提供统一框架。

智能机器人的等级

等级标准

该标准根据以下方面对机器人进行分类：它们在各种环境中执行任务的能力、自主决策的深度、交互的复杂性以及伦理认知。涵盖以下核心维度：

机器人独立完成任务的能力，从完全依赖人类控制到完全自主。
机器人能够处理的任务难度，从简单的重复劳动到创新性问题解决。
机器人在动态或极端环境中工作的能力。
机器人理解、与人类社会互动并对社会情境做出反应的能力。

等级因素

机器人的智能水平基于以下五个因素进行分级。

自主性：该因素基于机器人在各种任务中自主决策的能力。
任务处理能力：该因素基于机器人能够执行的任务的复杂性。
环境适应性：该因素基于机器人在不同环境中的表现。
社会认知能力：该因素基于机器人在社会场景中表现出的智能水平。

分类等级

IR-L0：基本执行级别

核心特征：处于系统基础执行层，具备完全非智能、程序驱动的属性。
任务类型：专注于执行高度重复、机械化且确定性的任务，例如工业焊接、固定路径物料搬运等。
运行模式：采用 "低感知 - 高执行" 模式，完全依赖预定义程序指令或实时远程操作，缺乏环境感知、状态反馈及自主决策能力，形成 "命令输入 - 机械执行" 的单向闭环系统。

IR-L1：程序响应级别

核心特征：具备有限的基于规则的反应能力。
任务执行：可执行预定义任务序列，如清洁机器人、接待机器人的任务。
感知能力：借助红外、超声波、压力等基本传感器触发特定行为模式。
局限性：无法处理复杂或不可预见事件，仅能在规则明确的封闭任务环境中保持操作稳定性，体现 "有限感知 - 有限执行" 范式，是基本机器人智能的开端。

IR-L2：基本感知和适应级别

核心进步：引入初步环境意识与自主能力，是机器人智能的重大发展。
能力表现：能对环境变化做出基本响应，并在多种任务模式间转换。例如，服务机器人可根据语音命令执行 "送水""导航引导" 等不同任务，同时在路径执行中避开障碍物。
技术支撑：需集成摄像头、麦克风阵列、激光雷达等感知模块，以及有限状态机（FSM）或行为树等基本行为决策框架。

IR-L3：类人认知与协作级别

核心能力：可在复杂动态环境中自主决策，支持复杂多模式人机交互。
交互表现 ：能推断用户意图并调整行为，在伦理约束下运行。例如，养老护理场景中，可通过分析语音模式、面部表情检测老年患者情绪变化，进而做出安慰动作或发出紧急警报。

机器人移动性、灵巧性和交互性

机器人移动性、灵巧性和交互性

#World4Drive

告别标注！中科院&理想：端到端双SOTA，超越Hydra-MDP

端到端在当下可谓是炙手可热，它将感知和规划集成到一个统一的、完全可微的网络中。不过，因为物理世界的复杂性和规划意图的不确定性，基于对物理场景的整体理解，也就是空间、语义和时间信息的理解，能够进行多模态运动规划，也是一个比较有挑战性的工作。

为了增强对场景的理解，现有的端到端方法探索了多种场景表示，包括以BEV为中心的表示、基于向量的表示等等。一些工作利用多模态大型语言模型来增强场景理解能力。除此之外像 VADv2 和 Hydra-MDP 这样的方法通过概率规划建模驾驶意图。但是！这些方法通常需要感知标注，来做一些辅助训练，比如3D 边界框的标注，这大大限制了这些工作的可扩展性。

最近，LAW 提出了一种潜在世界模型，该模型从原始图像中构建单模态潜在特征，并通过时间自监督学习获取场景表示，从而减少了对感知标注的依赖。然而，从图像中提取单模态潜在特征难以捕捉物理世界的空间语义信息和多模态驾驶意图，导致训练收敛速度慢且性能欠佳。为了解决这些关键问题，作者提出了 World4Drive ，这是一个端到端框架，它整合了多模态驾驶意图与潜在世界模型，以实现合理规划。这是通过潜意识地模拟在不同驾驶意图下物理世界如何演变来实现的，这与人类驾驶员的决策过程非常相似。给定多视图图像和轨迹词汇表输入，World4Drive 通过其驾驶世界编码模块提取驾驶意图和世界潜在表示。具体来说，驾驶世界编码模块包含两个关键组件：物理潜在编码器 和意图编码器。物理潜在编码器包括一个上下文编码器，该编码器利用深度估计模型和视觉语言模型的空间和语义先验，以及一个时间模块，聚合时间信息来构建富含物理场景上下文的世界潜在表示。同时，意图编码器从预定义的轨迹词汇表中提取多模态驾驶意图特征，能够全面表示可能的驾驶行为。之后，World4Drive 根据多模态驾驶意图预测未来的潜在表示，并提出了一个世界模型选择器来选择最合理的一个，用于与实际世界潜在表示进行自监督对齐训练。在推理过程中，作者充分利用 World4Drive 的潜在世界模型来评估和排名多模态轨迹候选方案，从而在复杂驾驶场景中指导自动驾驶车辆的规划过程。World4Drive 在 nuScenes 和 NavSim 基准测试中实现了无需感知标注的端到端规划性能，并且与先进的基于感知的模型相当。

论文链接：https://arxiv.org/pdf/2507.00603v1

作者的主要贡献总结如下：

受人类驾驶员决策过程的启发，作者提出了一个意图感知的潜在世界模型，创新性地使用世界模型在不同意图下生成和评估多模态轨迹。
为了增强世界模型对物理世界的理解而不依赖感知标注，作者设计了一个新颖的驾驶世界编码模块，该模块利用视觉基础模型的先验知识来提取驾驶环境的物理潜在表示。
作者的方法在 nuScenes 和 NavSim 基准测试中实现了无需感知标注的端到端规划性能，并显著加快了收敛速度。

相关工作 端到端自动驾驶

近年来，随着以鸟瞰图（BEV）为中心、基于向量和以稀疏信息为中心的场景表示技术的发展，基于视觉的端到端自动驾驶受到了越来越多的关注。如 UniAD、VAD 和 SparseDrive 等模型探索了这些多样化的表示方法，建立了包括感知、预测和规划在内的端到端架构。GenAD 利用生成模型来生成轨迹，而一些方法则实现了并行化的端到端结构。为了考虑规划中的意图不确定性，VADv2 和 Hydra-MDP 通过概率规划来建模驾驶意图。DiffusionDrive 和 GoalFlow 探索了基于扩散模型的端到端方法。随着大型语言模型（LLMs）的演变，几种方法通过语言模型增强场景信息。例如，VLP 通过对比学习将语言理解融入场景信息中。DriveVLM 构建了一个双系统，将视觉 - 语言模型的能力整合到决策空间中。TOKEN 利用大型语言模型来增强对象级别的感知，提高在长尾场景中的规划能力。然而，这些方法通常需要大量且昂贵的感知注释，这限制了它们的可扩展性。

自动驾驶世界模型

自动驾驶中的世界模型主要目的是预测在不同动作下场景的演变。这些模型包括基于图像的视频生成、基于点云和占用网格等表示的 3D 世界模型，以及基于潜在特征的未来世界生成。基于图像的视频生成包括使用扩散模型的驾驶视频方法，如 DriveDreamer、Vista 和 Drive-WM，以及基于自回归模型的驾驶视频生成方法，如 DriveWorld 和 GAIA。3D 世界模型包括基于点云的世界模型和基于占用的世界模型。这些模型在 3D 空间中构建模型，以更好地捕捉 3D 场景的动态变化。最近，VaVAM 和 LAW 等方法利用视频生成技术，通过自监督学习来学习场景表示，消除了对感知标注的依赖。特别是，LAW 提出了一种潜在世界模型，通过自监督学习预测单一未来场景潜在特征，实现了端到端规划的最先进性能。然而，从原始图像中构建单模态潜在特征往往难以捕捉空间 - 语义场景信息和多模态驾驶意图的不确定性，导致性能欠佳。

模型及方法

驾驶世界编码

作者设计的模型见图2所示，在驾驶世界编码模块中，作者引入了：

意图编码器（Intention Encoder） ：以词汇表为输入提取驾驶意图；
物理潜在编码器（Physical Latent Encoder）：利用视觉语言模型和度量深度估计模型提取具有空间、语义和时间上下文感知的世界潜在表征。

意图编码器

给定随机初始化的自我查询（ego query）和轨迹词汇表输入，作者首先在的端点上采用 k-means 聚类算法获得意图点。其中，表示轨迹词汇表中的轨迹数量，3 表示三种指令类型（例如左转、右转、直行），表示每种指令类型的意图数量，表示每条轨迹中的路径点数量。然后，作者获得带有正弦位置编码的意图查询。最后，作者利用一个自注意力层获得意图感知的多模态规划查询。形式化表示为：

默认设置，。

物理世界潜在编码模块

作者提出物理世界潜在编码模块 ，用于提取对3D物理世界具有全局理解（即空间和语义感知能力）的世界潜在表征。该模块由上下文编码器 （用于融合空间与语义先验）和时序聚合模块 （增强时序上下文）组成。

上下文编码器

给定时间步t的多视角图像输入，作者首先通过图像骨干网络提取对应图像特征（D为特征维度，M代表相机视角数量）。先前工作LAW直接将相机特征作为世界潜在表征，缺乏对驾驶场景的空间和语义理解。为解决这个问题，作者通过开放词汇语义监督和3D几何感知位置编码引入空间-语义先验。

语义理解

作者采用视觉语言模型Grouded-SAM生成伪语义标签。给定目标物体提示词，通过Grouded-SAM模型获得2D边界框及对应语义掩码：

仅保留高置信度标签以减少错误标注。最终通过交叉熵损失增强潜在表征的语义理解能力。

3D空间编码

该组件旨在为模型提供物理世界中的精确位置信息。受PETR启发，作者通过生成3D网格为每个像素提供不同的3D位置编码。不同的是，作者为每个像素提供尺度感知深度来表示3D空间，为端到端规划提供精准空间理解。具体实现：

使用度量深度模型估计多视角深度图
通过深度图和相机内参矩阵，获得每个像素在自车坐标系中的3D位置
生成3D位置图
使用正弦位置编码处理3D坐标，通过可学习MLP获得位置嵌入：
其中SPE(·)表示正弦位置编码。最终将位置嵌入与图像特征相加，得到语义-空间感知的视觉特征。

时序聚合模块

不同于前人工作使用随机初始化查询获取潜在表征，作者通过时序聚合模块获得富含时序上下文的潜在表征。具体保留前一时刻的视觉特征，通过交叉注意力机制将历史信息聚合到当前视觉特征中，得到世界潜在表征：

该模块通过融合空间、语义和时序信息，使世界潜在表征能够全面理解动态驾驶环境------这对"想象未来世界"至关重要。

基于意图感知世界模型的规划

本节提出意图感知世界模型，用于：

根据多模态驾驶意图预测未来世界的潜在表征
通过世界模型选择器对多模态规划轨迹进行评分。

意图感知世界模型预测器

动作编码

给定意图感知的多模态规划查询，首先通过交叉注意力层将场景上下文聚合到中，再通过MLP层生成多模态轨迹：

最后通过动作编码器（MLP层）获取意图感知的动作令牌（K为意图数量）。

意图感知世界模型预测

作者的目标是预测遵循不同驾驶意图动作对应的未来世界潜在状态（n为时间间隔）。与先前工作不同，作者：

沿通道维度拼接动作令牌A与世界潜在表征L
随机初始化可学习查询
采用多层交叉注意力作为预测器：
默认设置。

世界模型选择器

作者提出世界模型选择器模块，通过潜在世界模型评估K种不同意图下的轨迹，并从中选择合理轨迹。架构细节见图4：

具体流程：

给定预测的意图感知未来潜在表征和真实未来潜在表征
计算每个模态的预测潜在表征与真实潜在表征间的特征距离
选择距离最小的模态作为最终选定模态（假设其索引为j）
对应潜在距离作为重构损失用于优化
对应轨迹作为最终规划轨迹

同时，作者采用分类网络作为ScoreNet ，预测K个模态对应的分数：

使用分数S与选定模态索引j之间的焦点损失优化世界模型评分网络。

关键说明：

推理阶段直接选择世界模型最高分对应的轨迹作为最终输出
采用MSE损失计算潜在距离

训练损失

遵循先前工作，作者应用损失，用专家轨迹指导最终规划轨迹。World4Drive 是端到端可训练的。因此，端到端训练的最终损失为：

默认设置。

实验及结论

基准测试

开环 nuScenes 基准测试

作者采用位移误差（L2）和碰撞率（CR）作为评估指标来评估预测轨迹。

闭环 NavSim 基准测试

模型性能通过闭环 PDM 得分（PDMS）进行评估，这些得分基于五个关键因素计算得出：无责任碰撞（NC）、可行驶区域合规性（DAC）、碰撞前时间（TTC）、舒适性（Comf.）和自身进度（EP）。

主要结果

如表 1 所示，作者将作者提出的框架与几种最先进（SOTA）的方法进行了比较。表格中蓝底方法需要手动感知标注，而红底方法在训练和推理过程中不需要手动感知标注。World4Drive 在无需感知标注的方法中实现了最先进的性能，与基线相比，L2 误差降低了 18.0%，碰撞率降低了 46.7%。此外，World4Drive 在所有方法中实现了最低的碰撞率。与基于感知的最先进的方法 LAW 相比，作者的方法在 L2 误差上仅适度增加了不到 2%，同时显著提高了安全指标。

如表 2 所示，World4Drive 在闭环指标 PDMS 上也实现了具有竞争力的性能。与基线相比，作者的方法在碰撞前时间（TTC）和可行驶区域合规性（DAC）指标上显示出显著改进。这些指标专门评估自动驾驶车辆的空间感知和对可行驶区域的理解。结果表明，整合视觉基础模型先验显著增强了模型对物理世界的综合理解。此外，作者的闭环指标超越了其他需要感知标注的方法，除了 DiffusionDrive。

消融研究

各个组件的有效性

作者评估了作者方法中每个组件的有效性。详细结果如表 3 所示。第 1 行展示了作者基线 LAW 的结果，该基线仅具有单模态世界模型。比较第 1 行和第 2 行，作者观察到，纳入车辆意图显著降低了 L2 误差和碰撞率 。此外，第 1 行和第 4 行的比较表明，当整合视觉基础模型和视觉语言模型的先验时，规划性能显著提高，突出了对物理世界全面理解的重要性。为了探索不同感知组件的贡献，作者进行了更详细的分析。比较第 2 行和第 3 行，作者发现引入空间先验增强了位置感知，从而提高了轨迹拟合能力 。同样，第 3 行和第 6 行的比较表明，语义先验显著降低了碰撞率 ，表明对障碍物的理解更好。最后，作者研究了将意图与世界建模结合的必要性。第 4 行和第 6 行的比较表明，添加意图建模显著提高了规划质量 ，因为意图提供了多种规划可能性，使模型能够选择更安全的轨迹。然而，第 5 行和第 6 行的比较揭示了仅有意图而不进行世界建模实际上会导致规划性能下降。这证实了世界模型在评估和排名多模态意图方面的关键作用。

不同驾驶条件下的性能

作者分析了在不同驾驶条件下的规划性能，包括不同的天气条件、照明设置和驾驶操作。按照官方的 nuScenes 场景描述，作者将天气分为晴天或雨天，照明分为白天或夜晚，驾驶操作分为左转、直行或右转。表 4 对作者的方法与基线 LAW 在不同天气和照明条件下的性能进行了比较分析。作者的方法在几乎所有环境场景中都始终优于 LAW。值得注意的是，与 LAW 相比，在具有挑战性的夜间和雨天条件下，作者的方法分别将碰撞率降低了 63.7% 和 68.8%。这一显著改进归因于整合了来自视觉基础模型的先验，使作者的系统能够理解更高维度的物理环境空间和语义信息。因此，作者的方法对夜间和雨天天气条件中固有的光度不一致性表现出更强的鲁棒性，而这些条件通常会阻碍基线方法中潜在世界模型的时间自监督训练。

表 5 展示了作者的方法与 LAW 在不同驾驶操作下的规划性能比较。与 LAW 相比，作者的方法在各种驾驶操作中生成了显著更安全的规划轨迹。在不同驾驶条件下的卓越规划性能证明了作者的方法的有效性和鲁棒性。

World4Drive 的可扩展性

为了探索作者的方法的可扩展性，作者通过改变隐藏维度 D 的大小和图像主干网来进行实验。如表 6 所示，比较第 1、4 和 5 行，作者将图像主干网从 ResNet34 扩展到 ResNet50 和 ResNet101，而比较第 3、4 和 5 行，作者将隐藏维度的大小从 125 扩展到 256 和 384。消融结果表明，World4Drive 在图像主干网和隐藏维度方面都具有出色的可扩展性。

定性结果

在本节中，作者展示 World4Drive 在 nuScenes 基准测试中的可视化结果。定性结果如图 5 所示。可视化结果的上半部分表明，与 LAW 相比，World4Drive 在转向操作中规划的轨迹更安全。下半部分显示，世界模型选择器能够从多种驾驶意图中有效地选择最合理的轨迹。

结论

本文提出了 World4Drive，一个具有意图感知的物理潜在世界模型。World4Drive 提出了一个创新的框架，将驾驶意图与潜在世界模型相结合，创新性地利用潜在世界模型在不同的意图下生成、评估和选择多模态轨迹。具体来说，World4Drive 提出了一个物理世界潜在编码模块，整合了来自视觉基础模型的空间和语义先验，并聚合了时间信息。在 nuScenes 和 NavSim 基准测试上的广泛实验表明，World4Drive 对物理世界有着深刻而全面的理解，以及将驾驶意图与潜在世界模型紧密结合的有效性。

#Epona

分钟级长视频生成！地平线Epona：自回归扩散式的端到端自动驾驶世界模型

扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而，现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模，而非逐步构建每个时间下的局部化分布。本研究提出 Epona ，一种自回归扩散世界模型，通过两项关键创新实现局部时空分布建模：1）解耦的时空分解 ，将时间动态建模与细粒度未来世界生成分离；2）模块化的轨迹与视频预测，通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"（chain-of-forward training strategy），在实现高分辨率、长持续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明，与现有方法相比，Epona在FVD指标上提升7.4%，预测时长可达数分钟。该世界模型进一步可作为实时端到端规划器，在NAVSIM基准测试中优于现有端到端规划器。

论文标题：Epona: Autoregressive Diffusion World Model for Autonomous Driving
论文地址：https://arxiv.org/abs/2506.24113
项目主页：https://kevin-thu.github.io/Epona/
GitHub地址：https://github.com/Kevin-thu/Epona/

研究动机剖析

扩散 or 自回归？世界建模仍存鸿沟

近年来，伴随着生成模型的快速发展，世界模型作为模拟物理世界、建构环境动态并辅助智能体进行规划与决策的关键技术范式，受到广泛关注。在自动驾驶这样高动态、高复杂度任务中，世界模型可通过预测未来环境状态，辅助智能体实现前瞻性轨迹规划，从而摆脱对繁复感知模块与昂贵标注数据的依赖，成为构建下一代端到端自动驾驶的重要路径。

然而，当前自动驾驶世界模型的建模方式和架构设计仍存在明显缺陷。现有的世界模型架构主要借鉴自两大类主流生成模型框架：

基于视频扩散的世界模型（如 GAIA-2、Vista）：能生成高质量连续视频，但仅限固定长度、缺乏时序因果性建模，难以扩展至灵活长度长视频生成和轨迹规划任务；
基于自回归Transformer类模型（如 GAIA-1、DrivingWorld）：通过离散token自回归建模实现长序列预测，支持闭环控制和视频轨迹联合生成，但牺牲了连续图像质量和真实轨迹建模能力，且自回归长时序推理存在严重误差累积。

这两类方法各有优劣，长期以来缺乏一种统一且实用的解决方案。在自动驾驶等应用中，大家希望模型既具备高质量长时序的预测推理能力 ，又能进行实时运动规划与轨迹控制 ，因此如何革新世界模型的基础架构设计 成为限制世界模型发展的关键挑战。

相关工作回顾

自动驾驶世界模型

构建真实驾驶世界模型近年来受到广泛关注，其中以视觉为中心的方法因其传感器灵活性、数据可访问性以及更接近人类的表征形式而占据主导地位。早期研究主要集中在通过微调将预训练扩散模型（如 Stable Diffusion）适配到驾驶场景中。然而，这些方法要么缺乏关键的规划模块，要么受限于低分辨率和短时生成，难以满足长期一致预测和实时规划的需求。

近期研究探索了采用GPT风格架构来统一视觉与动作建模，并实现了长序列自回归生成。然而，这些方法需要将图像和轨迹编码为离散token，显著降低了视觉质量和轨迹精度。同样，新发布的Cosmos基础模型虽可作为驾驶世界模型，但并未引入新框架，仍面临与前述方法相同的局限性。此外，其庞大的参数量和计算需求也限制了实用性。相比之下，本文提出了一种新颖的自动驾驶自回归扩散世界模型框架，支持连续视觉与轨迹表征下的长序列自回归生成。

长视频生成

长时序预测不仅是当前视频生成模型的关键挑战，也是世界模型鲁棒泛化的核心能力，因为它反映了模型学习环境动态并准确模拟时间进程的能力。由于原始视频扩散模型（如SVD）仅能生成固定长度的短片段，早期方法通过噪声重调度、重叠生成或分层生成扩展视频长度。然而，这些技术未能解决模型固有限制，常导致长视频中出现不一致性和突变视觉效果。

自回归方法天然支持变长生成，但因教师强制训练（teacher-forcing）与采样阶段误差累积之间的领域偏移（domain shift），导致生成质量显著下降。GameNGen和DrivingWorld通过训练中引入噪声增强和随机token丢弃缓解这个问题，但却受限于特定模型架构。本文提出了一种通用的"链式前向训练策略"（chain-of-forward strategy），使模型在训练中直接学习推理误差，有效减少自回归漂移。

近期研究如Diffusion Forcing和FIFO-Diffusion通过调整帧级噪声水平和利用因果网络设计，探索了视频扩散中的自回归生成。Epona采用了类似的因果时间建模策略，但将架构重新定义为两阶段端到端框架，支持运动规划与下一帧图像的联合生成。

算法详解

重新思考世界模型的建模方式

为解决上述问题，Epona 对自动驾驶世界模型的建模范式进行了系统性重构，从而有效融合了扩散模型和自回归模型的优势。Epona 将世界模型建模为一个时序域中的逐步状态预测过程，具体来说，给定过去一段时间内的驾驶场景序列和对应的驾驶轨迹，并完成两个异步协同的生成目标：

轨迹策略预测：生成未来步的行车轨迹
下一帧场景预测：基于历史信息和未来第一步轨迹控制，预测下一帧驾驶场景（相机视图）

在此设计基础上，Epona 引入三项关键设计创新：

解耦时空建模

实现灵活长度的高质量长时序视频生成

传统视频扩散模型建模固定长度序列的联合分布，难以支持长视频生成和灵活控制。Epona 首次在扩散世界模型中显式解耦时间建模与空间生成：

时序建模：使用多模态时空 Transformer（MST）通过交错的 causal temporal attention 和 spatial attention 编码历史视觉与轨迹序列，提取紧凑的时序潜变量；
空间生成：基于时序潜变量条件，使用双-单流结构的 DiT 预测未来轨迹和驾驶场景，支持逐帧自回归生成。

这一结构显式建模了时序信息，显著增强了模型的时间维度可扩展性，允许根据条件灵活生成任意长度的视频 ，同时保持每一帧的高分辨率与细节一致性。实验中，Epona 可在 NuPlan 上生成超过 2分钟（600帧）的高质量驾驶视频。

解耦轨迹与图像生成

支持轨迹控制生成与实时轨迹规划

基于历史信息，Epona 进一步将未来预测分为轨迹生成 和轨迹控制的场景生成两个扩散分支：

TrajDiT：通过扩散模型生成未来 3 秒连续轨迹；
VisDiT：基于历史信息和当前动作生成下一帧图像。

两个分支共享时序潜变量、异步去噪，因而能够分别使用，支持如下能力：

轨迹控制生成：可仅使用 VisDiT，输入指定轨迹，生成出特定动作意图下的驾驶视频，也可以将模型自行预测轨迹的第一个动作作为条件，让模型自由幻想驾驶场景；
实时轨迹规划 ：可仅使用 TrajDiT 实现实时预测未来轨迹 （>20Hz），在不启用图像分支的情况下完成轻量化运动决策。

Chain-of-Forward 训练策略

缓解自回归误差积累

误差累积（Autoregressive Drift）是自回归视频生成中长期存在的一大问题：训练阶段模型使用真实历史帧作为条件，推理时却需要依赖自己的预测结果，导致训练-推理分布不一致，在生成长视频时视觉效果快速下滑。

为此，Epona 引入了一种简单而有效的Chain-of-Forward（CoF）训练策略：在训练阶段周期性使用模型自身预测帧作为下一步输入，从而模拟推理阶段的分布偏移，提升模型对自身噪音的鲁棒性。这一思想恰好与最近很火的 **Self Forcing ** 不谋而合，但 Self Forcing 仍基于已有的视频扩散模型架构，受限于视频扩散模型本身训练的视频长度；而 Epona 使用重新设计和训练的逐帧自回归模型框架，实现真正的逐帧自回归视频生成。

然而，在训练中引入推理会显著影响训练速度，为提升效率，Epona 在训练中仅通过单步生成近似预测下一帧，公式如下：

其中是加噪后的图像隐变量，表示通过 Rectified Flow训练的扩散模型（流模型）的速度场预测。该策略有效提升了模型在长序列生成过程中的稳定性与一致性。实验表明，加入 Chain-of-Forward 后，FID 和 FVD 均显著下降，误差累积问题明显缓解。

实验结果

Epona 在 NuPlan和nuScenes数据集上从头训练，输入图像尺寸为 512×1024，模型总参数量约 2.5B，采用 Rectified Flow 目标端到端优化。推理阶段可在单张 4090 GPU 上进行，单张 4090 上图像生成约 2s/帧，轨迹预测支持 20Hz 实时运行。

分钟级长视频生成

与 SoTA 的自动驾驶世界模型 Vista 和 NVIDIA Cosmos (v1-AR-4B)对比，Epona 大大提高了可生成视频的长度，在 NuPlan 数据集上可生成长达 2 分钟（600帧）的驾驶视频，具有显著优势：

，时长00:32

轨迹控制视频生成

Epona 支持细粒度的轨迹控制，可根据指定轨迹生成定制化的驾驶视频：

，时长00:21

视频生成结果对比：

端到端轨迹预测

Epona 支持端到端轨迹预测，可用于自动驾驶运动规划，相较专为运动规划设计的端到端网络，在 nuScenes 和 NAVSIM基准上均取得有竞争性的结果：

与其他工作的对比&讨论

近来AR+Diffusion的设计思想受到广泛关注，简要对比Epona的设计思想与相关工作的不同之处：

Transfusion, JanusFlow , Bagel等工作将 token-by-token 的文本自回归与图像扩散结合，主要聚焦于统一大模型中图像的语义理解和生成；而 Epona 将 frame-by-frame 的时序潜变量自回归与多模态扩散生成相结合，聚焦于解决视频生成中的时序建模与动态一致性问题。
MAR, NOVA, VideoMAR等工作通过 Diffusion Loss 建模连续 token 的分布，摆脱了传统自回归模型中 VQ 离散化的需求，但当前在视频生成上的探索仍处在初步阶段，局限于生成短时序、动态性小的视频，在世界模型长时序、高动态的视频生成中的能力尚待探索。
CausVid, Self Forcing, Vid2World等工作通过修改现有的视频扩散模型架构引入时序建模和逐帧生成能力，但仍受限于视频扩散模型本身训练的视频长度；Epona 则重新设计了世界模型架构，将时序建模和逐帧空间建模显式解耦，且支持图像、轨迹多模态生成。

总结

Epona 提出了一种自回归扩散式的新型自动驾驶世界模型框架，通过任务解耦、结构重构与链式训练策略，实现了在同一模型中统一支持分钟级视频生成、轨迹可控模拟和实时规划控制三项核心能力。

51c自动驾驶~合集6

#DreamCar

#xx智能有哪些细分研究方向

#Any2Point

#EV-Voxel

#地平线正在跻身国内一流智驾行列

#从物理仿真和世界模型中学习xx智能

#World4Drive

#Epona

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx