自己的原文哦~https://blog.51cto.com/whaosoft/11584834
#DreamCar
理想开源在moving-froward场景中的3D车辆重建
Arxiv:https://arxiv.org/abs/2407.16988
Project page: https://xiaobiaodu.github.io/dreamcar-project/
Code: https://github.com/xiaobiaodu/DreamCar
以上是我们提出的方法DreamCar 在实际应用场景中的效果。
摘要
自驾行业通常雇用专业艺术家来制作精美的3D汽车模型。然而,制作大规模的数字资产成本高昂。由于已经有许多包含大量汽车图像的数据集,我们专注于从这些数据集中重建高质量的3D汽车模型。然而,这些数据集只包含前行场景中汽车的一侧图像。我们尝试使用现有的生成模型提供更多的监督信息,但由于这些模型是在合成数据集上训练的,而不是专门针对汽车的数据集,因此难以在汽车上泛化。此外,在处理野外图像时,由于相机姿态估计的误差较大,重建的3D汽车纹理会出现错位。这些限制使得以前的方法难以重建完整的3D汽车。为了解决这些问题,我们提出了一种新方法,名为DreamCar,能够在给定少量图像甚至单张图像的情况下重建高质量的3D汽车。为了使生成模型更具泛化性,我们收集了一个名为Car360的汽车数据集,包含超过5600辆汽车。利用这个数据集,我们使生成模型对汽车更加鲁棒。我们使用特定于汽车的生成先验,通过分数蒸馏采样来引导重建。为了进一步补充监督信息,我们利用汽车的几何和外观对称性。最后,我们提出了一种姿态优化方法,通过校正姿态来解决纹理错位问题。大量实验表明,我们的方法在重建高质量3D汽车方面显著优于现有方法。8
以上是我们提出的方法DreamCar 在nuscenes 数据集中重建大量3D汽车的效果。
方法
我们提出的方法DreamCar,通过利用多种关键技术从有限数量的图像中重建高质量的3D汽车模型。首先进行图像分割和镜像操作,以创建额外的训练视图,然后使用Nuscenes等数据集估算和优化相机姿态。该方法采用逐步由粗到细的几何重建方法,使用NeRF、Neus和DMTET等模型,并结合法线和深度图约束以确保精度。纹理优化通过生成模型和DreamBooth实现,以获得逼真的结果,并使用PoseMLP优化相机姿态以纠正纹理错位。
提出的Car360 数据集
本研究旨在从有限数量的图像(通常为一到五张)中重建完整的3D模型。然而,仅依靠这些监督信息是不够的。因此,我们在方法中集成了最近的大规模3D感知扩散模型Zero-123-XL的生成先验。我们发现,由于该模型在大规模合成数据集(如Objaverse)上训练,而不是专门针对汽车的数据集,因此在实际的汽车主题上难以泛化。在本研究中,我们收集了一个名为Car360的汽车数据集,其中包含5600辆合成汽车,以增强我们的模型在实际汽车上的鲁棒性。
.
#xx智能有哪些细分研究方向
xx智能(Embedded AI)对于实现通用人工智能(AGI)至关重要,是连接网络空间和物理世界的各种应用的基础。最近,多模态大模型(MLM)和世界模型(WMs)的出现因其卓越的感知、交互和推理能力而引起了人们的广泛关注,使其成为xx智能体大脑的一种有前景的架构。然而,在传播时代,还没有对嵌入式AI进行全面的调查。
在本次调查中,我们全面探讨了xx智能的最新进展。我们的分析首先浏览了xx机器人和仿真引擎的代表性作品的前沿,以充分了解研究重点及其局限性。然后,我们分析了四个主要的研究目标:1)xx感知,2)xx交互,3)xx代理,4)仿真到真实的适应,涵盖了最先进的方法、基本范式和全面的数据集。此外,我们还探讨了虚拟和真实化身代理中MLM的复杂性,强调了它们在促进动态数字和物理环境中的交互方面的重要性。最后,我们总结了xx人工智能的挑战和局限性,并讨论了它们未来的潜在发展方向。我们希望这项调查能够为研究界提供基础参考,并激发持续创新。
开源汇总链接:https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
与以往研究的不同之处:尽管已经有几篇关于xx智能的调查论文,但其中大多数已经过时,因为它们是在2023年左右开始的起步时代之前发表的。据我们所知,2023年之后只有一篇综述论文只关注视觉语言动作体现的人工智能模型。然而,MLM、WMs和xx代理并没有得到充分考虑。此外,体现机器人和仿真引擎的最新发展也被忽视了。为了解决这个快速发展的领域中综合调查论文的稀缺问题,我们提出了这项综合综述,涵盖了代表性的xx机器人、仿真引擎和四个主要研究任务:xx感知、xx交互、xx代理和仿真真实机器人控制。
总之,这项工作的主要贡献有三方面。首先,它对xx人工智能进行了系统回顾,包括xx机器人、仿真引擎和四个主要研究任务:视觉主动感知、xx交互、xx代理和仿真机器人控制。据我们所知,这是第一次从基于MLM和WMs的网络和物理空间对齐的角度对xx人工智能进行全面调查,对现有研究进行了全面的总结和分类。其次,它考察了嵌入式人工智能的最新进展,提供了跨多个仿真引擎和数据集的当前工作的全面基准测试和讨论。第三,它确定了体现人工智能AGI未来研究的几个研究挑战和潜在方向。
xx机器人
Embodied agent积极与物理环境交互,涵盖了广泛的实施例,包括机器人、智能电器、智能眼镜、自动驾驶汽车等。其中,机器人是最突出的实施例之一。根据应用,机器人被设计成各种形式,以利用其硬件特性完成特定任务,如图4所示
Fixed-base Robots
如图4(a)所示,固定基座机器人因其紧凑性和高精度操作而广泛应用于实验室自动化、教育培训和工业制造。这些机器人具有坚固的底座和结构,可确保操作过程中的稳定性和高精度。配备高精度传感器和执行器,可实现微米级精度,使其适用于需要高精度和可重复性的任务
Wheeled Robots and Tracked Robots
对于移动机器人来说,它们可以面对更复杂和多样化的应用场景。如图4(b)所示,轮式机器人以其高效的机动性而闻名,广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高、在平面上的快速移动能力。这些机器人通常配备激光雷达和摄像头等高精度传感器,实现自主导航和环境感知,使其在自动化仓库管理和检查任务中非常有效。
相比之下,履带式机器人具有强大的越野能力和高机动性,在农业、建筑和灾难恢复方面显示出巨大的潜力,如图4(c)所示。轨道系统提供了更大的地面接触面积,分散了机器人的重量,降低了在泥泞和沙地等软地形中沉没的风险。
Quadruped Robots
四足机器人以其稳定性和适应性而闻名,非常适合复杂的地形探索、救援任务和军事应用。受四足动物的启发,这些机器人可以在不平坦的表面上保持平衡和机动性,如图4(d)所示。多关节设计使它们能够模仿生物运动,实现复杂的步态和姿势调整。高可调性使机器人能够自动适应不断变化的地形,提高机动性和稳定性。
Humanoid Robots
人形机器人以其类似人类的形态而闻名,在服务业、医疗保健和协作环境等领域越来越普遍。这些机器人可以模仿人类的动作和行为模式,提供个性化的服务和支持。如图4(e)所示,它们灵巧的手设计使它们能够执行复杂而复杂的任务,使其有别于其他类型的机器人。
Biomimetic Robots
不同的仿生机器人通过仿真自然生物的有效运动和功能,在复杂和动态的环境中执行任务。通过仿真生物xx的形态和运动机制,这些机器人在医疗保健、环境监测和生物研究等领域显示出巨大的潜力。如图4(f)所示。
xx仿真
xx仿真对于嵌入式人工智能至关重要,因为它们提供了具有成本效益的实验,通过仿真潜在的危险场景来确保安全性,在不同环境中进行测试的可扩展性,快速原型制作能力,更广泛的研究社区的可访问性,精确研究的受控环境,训练和评估的数据生成,以及算法比较的标准化基准。为了使代理能够与环境交互,有必要构建一个逼真的仿真环境。这需要考虑环境的物理特性、目标的属性及其相互作用。
本节将分两部分介绍常用的仿真平台:基于底层仿真的通用仿真引擎和基于真实场景的仿真引擎。
General Simulator
真实环境中存在的物理相互作用和动态变化是不可替代的。然而,在物理世界中部署xx模型通常会带来高昂的成本,并面临诸多挑战。xx人工智能的最终目标是将发现从虚拟环境转移到现实世界的应用程序中。研究人员可以选择最适合他们需求的仿真引擎来帮助他们的研究。通用仿真引擎提供了一个紧密模拟物理世界的虚拟环境,允许算法开发和模型训练,这提供了显著的成本、时间和安全优势。
• Isaac Sim
• Gazebo
• PyBullet
表二列出了10种用途仿真引擎的关键特征和主要应用场景。研究人员可以根据自己的具体研究需求选择最合适的仿真引擎,从而加快嵌入式人工智能技术的开发和应用。图5显示了通用仿真引擎的可视化效果。
Real-Scene Based Simulators
在家庭活动中实现普遍的xx代理一直是xx人工智能研究领域的主要焦点。这些xx代理需要深入了解人类的日常生活,并在室内环境中执行复杂的xx任务,如导航和交互。为了满足这些复杂任务的需求,模拟环境需要尽可能接近现实世界,这对仿真引擎的复杂性和真实性提出了很高的要求。这导致了基于现实世界环境的仿真引擎的创建。这些仿真引擎主要从现实世界收集数据,创建逼真的3D资产,并使用UE5和Unity等3D游戏引擎构建场景。丰富而逼真的场景使基于现实世界环境的仿真引擎成为家庭活动中xx人工智能研究的首选。
• AI2-THOR
• Matterport 3D
• Virtualhome
• Habitat
• SAPIEN
• iGibson
• TDW
表三总结了基于上述真实场景的所有模拟器。Sapien因其设计而脱颖而出,专门为模拟与门、橱柜和抽屉等关节目标的交互而量身定制。VirtualHome以其独特的环境图而闻名,它促进了基于环境自然语言描述的高级体现规划。虽然AI2Thor提供了丰富的交互式场景,但这些交互与VirtualHome中的交互类似,都是基于脚本的,缺乏真正的物理交互。这种设计足以满足不需要细粒度交互的具体任务。iGibson和TDW都提供了精细的压花控制和高度模拟的物理交互。iGibson擅长提供丰富而逼真的大规模场景,使其适用于复杂和长期的移动操作,其中TDW允许用户在场景扩展方面有更大的自由度,并具有独特的音频和灵活的流体模拟功能,使其在相关模拟场景中不可或缺。Matterport3D是一个基础的2D-3D视觉数据集,在嵌入式AI基准测试中得到了广泛的应用和扩展。虽然Habitat中的xx代理缺乏交互能力,但其广泛的室内场景、用户友好的界面和开放的框架使其在xx导航中受到高度重视。
xx感知
未来视觉感知的"北极星"体现为以视觉推理和社会智能为中心。具有xx感知的主体不太可能识别图像中的物体,必须在物理世界中移动并与环境交互。这需要对3D空间和动态环境有更深入的了解。体现感知需要视觉感知和推理,理解场景中的3D关系,并根据视觉信息预测和执行复杂的任务。
Active Visual Perception
主动视觉感知系统需要基本的能力,如状态估计、场景感知和环境探索。如图7所示,这些功能在vSLAM、3D场景理解和主动探索领域得到了广泛的研究。这些研究领域有助于开发强大的主动视觉感知系统,促进复杂动态环境中的环境交互和导航。我们简要介绍了这三个组成部分,并总结了表四中每个部分提到的方法。
1)视觉SLAM:SLAM是一种技术,可以确定移动机器人在未知环境中的位置,同时竞争性地构建该环境的地图。基于距离的SLAM使用测距仪(如激光扫描仪、雷达和/或声纳)创建点云表示,但成本高昂,提供的环境信息有限。视觉SLAM(vSLAM)使用车载摄像头捕捉帧并构建环境表示。它因其低硬件成本、小规模场景中的高精度以及捕获丰富环境信息的能力而广受欢迎。经典的vSLAM技术可分为传统vSLAM和语义vSLAM。
2)3D场景理解:3D场景理解旨在区分目标的语义,识别它们的位置,并从3D场景数据中推断出几何属性,这在自动驾驶、机器人导航和人机交互等领域至关重要。场景可以使用激光雷达或RGB-D传感器等3D扫描工具记录为3D点云。与图像不同,点云是稀疏、无序和不规则的,这使得场景解释极具挑战性。
3)主动探索:之前介绍的3D场景理解方法赋予机器人以被动方式感知环境的能力。在这种情况下,感知系统的信息获取和决策不适应不断变化的场景。然而,被动感知是主动探索的重要基础。鉴于机器人能够移动并与周围环境频繁互动,它们也应该能够主动探索和感知周围的环境。它们之间的关系如图所示。当前解决主动感知的方法侧重于与环境交互或通过改变观察方向来获得更多的视觉信息。
3D Visual Grounding
与在平面图像范围内运行的传统2D视觉基础(VG)不同,3D VG结合了目标之间的深度、视角和空间关系,为代理与环境交互提供了更强大的框架。3D VG的任务涉及使用自然语言描述在3D环境中定位目标。如表五所示,3D视觉接地的最新方法大致可分为两类:两阶段方法和一阶段方法。
1)两阶段3D视觉接地方法:与相应的2D任务类似,3D接地的早期研究主要利用了两阶段检测然后匹配的管道。他们最初使用预训练的检测器或片段从3D场景中的众多目标建议中提取特征,然后将其与语言查询特征融合以匹配目标目标。两阶段研究的重点主要集中在第二阶段,例如探索目标建议特征和语言查询特征之间的相关性,以选择最匹配的目标。Refrait3D和TGNN不仅学习将提出的特征与文本嵌入相匹配,还通过图神经网络对目标之间的上下文关系进行编码。为了增强自由形式描述和不规则点云的3D视觉基础,FFL-3DOG使用了用于短语相关性的语言场景图、用于丰富视觉特征的多级3D提案关系图和用于编码全局上下文的描述引导3D视觉图。
2)一阶段3D视觉接地方法:在图8(c)中,与两阶段3D VG方法相比,一阶段3D VGs方法集成了由语言查询引导的目标检测和特征提取,使定位与语言相关的目标变得更加容易
Visual Language Navigation
视觉语言导航(VLN)是xx智能的一个关键研究问题,旨在使代理能够按照语言指令在看不见的环境中导航。VLN要求机器人理解复杂多样的视觉观察,同时解释不同粒度的指令。VLN的输入通常由两部分组成:视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频,也可以是一组历史当前观测图像。自然语言指令包括体现代理需要达到的目标或体现代理预期完成的任务。所体现的代理必须使用上述信息从候选列表中选择一个或一系列动作,以满足自然语言指令的要求。
1)数据集如下:
2)方法:近年来,随着LLM的惊人性能,VLN取得了长足的进步,VLN的方向和重点受到了深刻的影响。永远,VLN方法可以分为两个方向:基于记忆理解和基于未来预测。
Non-Visual Perception
触觉传感器为试剂提供有关物体属性的详细信息,如纹理、硬度和温度。它允许机器人完全完成手头的高精度任务,这对物理世界中的代理至关重要。触觉感知无疑增强了人机交互,并具有巨大的前景。
对于触觉感知任务,智能体需要从物理世界收集触觉信息,然后执行复杂的任务。在本节中,如图10所示,我们首先介绍了现有类型的触觉传感器及其数据集,然后讨论了触觉感知中的三个主要任务:估计、识别和操纵。
1)传感器设计:人类触觉的原理是,皮肤在被触摸时会改变形状,其丰富的神经细胞会发送电信号,这也是设计触觉传感器的基础。触觉传感器设计方法可分为三类:非视觉、视觉和多模态。非视觉触觉传感器主要使用电气和机械原理,主要记录基本的低维传感器输出,如力、压力、振动和温度。
2)数据集:非视觉传感器的数据集包含电极值、3D净力矢量和接触位置。因此,数据集中的对象通常是力样本和抓取样本。它的任务主要是估计力类型、力值和掌握细节。
3)方法:触觉感知有很多应用,可分为三类:估计、精确的机器人操作和多模态识别任务。
4)困难:a)具有不同原理的传感器的缺点:传统传感器提供简单、有限和低维的数据,对多模态学习构成挑战。基于视觉的传感器和电子皮肤虽然提供了高精度,但成本过高。此外,基于视觉的传感器无法提供温度信息。b)数据采集的困难:触觉数据集罕见且异构,缺乏视觉等领域中标准化、广泛的存储库。数据收集尤其具有挑战性,尤其是在同时收集触觉和视觉信息时,尽管在开发简化的收集设备方面做出了一些努力。c)标准不一致的困难:市场上有各种标准和原理不一致的传感器。即使成像模式相似,基于视觉的触觉传感器的设计和校准也会导致明显的域差距。与视觉和听觉数据的标准化格式不同,触觉数据格式在传感器制造商之间差异很大,这使得从异构传感器进行大规模学习变得困难,并限制了公开触觉数据集的有用性。
xx交互
xx交互任务是指代理在物理或模拟空间中与人类和环境交互的场景。典型的xx交互任务是xx问答(EQA)和xx抓取。
Embodied Question Answering
对于EQA任务,代理需要从第一人称的角度探索环境,以收集回答给定问题所需的信息。具有自主探索和决策能力的代理不仅必须考虑采取哪些行动来探索环境,还必须确定何时停止探索以回答问题。现有的工作侧重于不同类型的问题,其中一些问题如图11所示。在本节中,我们首先介绍现有的数据集,然后讨论相关方法。
数据集如下:
方法分为以下几类:
• Neural Network Methods
• LLMs/VLMs Methods
局限性:(a)数据集:构建数据集需要大量的人力和资源。此外,大规模数据集仍然很少,评估模型性能的指标因数据集而异,使性能的测试和比较变得复杂,(b)模型:尽管LLM带来了进步,但这些模型的性能仍然远远落后于人类水平。未来的工作可能更侧重于有效地干扰代理人探索的环境信息,并指导他们根据环境记忆和问题规划行动,同时提高他们行动的可解释性。
Embodied Grasping
xx交互,除了与人类进行问答交互外,还可以包括根据人类指令执行操作,例如抓取和放置物体,从而完成机器人、人类和物体之间的交互。体现抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。xx抓取方法将传统的机器人运动学抓取与大型模型(如LLM和视觉语言基础模型)相结合,使代理能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。图12(b)展示了人机交互的概览,其中代理完成了具体的抓取任务。
1)抓握器:目前抓握技术的研究重点是两指平行抓握器和五指灵巧手。对于双指平行抓取器,抓取姿势通常分为两类:4-DOF和6-DOF。
2)数据集:最近已经生成了大量的抓取数据集。这些数据集通常包含基于图像(RGB、深度)、点云或3D场景的带注释抓取数据。
3)语言引导抓取:语言引导抓取的概念是从这种整合中发展而来的,它结合了MLM,为代理提供了语义场景推理的能力。这允许代理根据隐式或显式的人类指令执行抓取操作。图12(c)显示了近年来语言引导掌握主题的出版趋势。随着LLM的进步,研究人员对这一主题表现出越来越大的兴趣。目前,抓取研究越来越关注开放世界场景,强调开放集泛化方法。通过利用MLM的泛化能力,机器人可以在开放世界环境中以更高的智能和效率执行抓取任务。
4)端到端方法:CLIPORT是一种语言条件模仿学习代理,它将视觉语言预训练模型CLIP与Transporter Net相结合,创建了一个用于语义理解和草生成的端到端双流架构。它使用从虚拟环境中收集的大量专家演示数据进行训练,使代理能够执行语义引导的抓取。基于OCID数据集,CROG提出了一种视觉语言抓取数据集,并引入了具有竞争力的端到端基线。
5)模块化方法:F3RM试图将CLIP的文本图像先验提升到3D空间,使用提取的特征进行语言定位,然后生成草。它将精确的3D几何与2D基本模型的丰富语义相结合,利用从CLIP提取的特征通过自由文本自然语言指定要操作的对象。
这些方法通过利用端到端和模块化框架推进了语言引导抓取领域,从而增强了机器人代理通过自然语言指令理解和执行复杂抓取任务的能力。xx抓握使机器人能够与物体互动,从而提高了它们在家庭服务和工业制造中的智能和实用性。未来的研究将侧重于提高智能体的通用性,使机器人能够理解更复杂的语义,掌握更广泛的看不见的物体,并完成复杂的抓取任务。
xxagent
代理被定义为能够感知其环境并采取行动实现特定目标的自主xx。MLM的最新进展进一步将代理的应用扩展到实际场景。当这些基于MLM的代理体现在物理xx中时,它们可以有效地将其能力从虚拟空间转移到物理世界,从而成为体现代理。
为了使xx代理能够在信息丰富和复杂的现实世界中运行,开发了xx代理,以显示强大的多模态感知、交互和规划能力,如图13所示。为了完成一项任务,嵌入式代理通常涉及以下过程:1)将抽象和复杂的任务分解为特定的子任务,这被称为高级嵌入式任务规划。2)通过有效地利用体现感知和体现交互模型或利用基础模型的策略功能(称为低级体现行动计划)来逐步实现这些子任务。值得注意的是,任务规划涉及行动前的思考,因此通常在网络空间中被考虑。相比之下,行动计划必须考虑到与环境的有效交互,并将此信息反馈给任务规划者以调整任务计划。因此,对于xx代理来说,将他们的能力从网络空间推广到物理世界是至关重要的。
Embodied Multimodal Foundation Model
xx代理需要视觉识别其环境,听觉理解指令,并包含其自身状态,以实现复杂的交互和操作。这需要一个集成多种传感器模态和自然语言处理能力的模型,通过合成各种数据类型来增强智能体的理解和决策。体现多模式基础模型正在出现。谷歌DeepMind八年前开始在机器人基础模型领域进行研究,不断探索更有效地扩展模型和数据的方法。他们的研究结果表明,利用基础模型和大型、多样化的数据集是最佳策略。他们基于机器人Transformer(RT)开发了一系列作品,为未来关于xx代理的研究提供了实质性的见解。
Embodied Task Planning
如前所述,对于"把苹果放在盘子里"的任务,任务规划器会将其分为"找到苹果,摘苹果"、"找到盘子"、"放下苹果"等子任务。因为如何查找(导航任务)或拾取/放下动作(抓取任务)不在任务规划的范围内。这些动作通常在模拟器中预先定义,或在现实世界中使用预先训练的策略模型执行,例如使用CLIPort来抓取任务。主要分为以下几个模块:
• Planning utilizing the Emergent Capabilities of LLMs
• Planning utilizing the visual information from embodied perception model
• Planning utilizing the VLMs
Embodie
d Action Planning
很明显,行动规划必须解决现实世界的不确定性,因为任务规划提供的子任务的粒度不足以指导环境交互中的代理。通常,代理可以通过两种方式实现行动计划:1)使用预先训练的xx感知和xx干预模型作为工具,通过API逐步完成任务计划指定的子任务,2)利用VLA模型的固有能力来制定行动计划。此外,动作规划器的执行结果被反馈给任务规划器,以调整和改进任务规划。
• Action utilizing APIs
• Action utilizing VLA model
Si
m-to-Real适应
xx人工智能中的模拟到真实适应是指将在模拟环境(网络空间)中学习到的能力或行为转移到现实世界场景(物理世界)的过程。它涉及验证和改进仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中稳健可靠地运行。为了实现模拟到真实的适应,体现世界模型、数据收集和训练方法以及体现控制算法是三个基本组成部分。
Embodied World Model
Sim-to-Real涉及在模拟中创建与现实世界环境非常相似的世界模型,帮助算法在传输时更好地泛化。世界模型的方法是构建一个端到端的模型,通过以生成或预测的方式预测下一个状态来做出决策,将愿景映射到行动,甚至将任何东西映射到任何东西。这种世界模型和VLA模型之间最大的区别在于,VLA模型首先在大规模互联网数据集上进行训练,以实现高级应急能力,然后与现实世界的机器人数据进行微调。相比之下,世界模型是在物理世界数据上从头开始训练的,随着数据量的增加,逐渐发展出高级功能。然而,它们仍然是低级的物理世界模型,在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景,例如自动驾驶(输入:视觉,输出:油门、刹车、方向盘)或物体分类(输入:视力、指令、数字传感器,输出:抓取目标物体并将其放置在目标位置)。它们不太适合泛化到非结构化、复杂的具体任务。
学习世界模型在物理仿真领域具有广阔的应用前景。与传统的仿真方法相比,它具有显著的优势,例如能够推理不完整信息的交互,满足实时计算要求,并随着时间的推移提高预测精度。这种世界模型的预测能力至关重要,使机器人能够发展在人类世界中操作所需的物理直觉。如图15所示,根据世界环境的学习管道,它们可分为基于生成的方法、基于预测的方法和知识驱动的方法。我们简要总结了表XI中提到的方法。
Data Collection and Training
对于模拟到真实的适应,高质量的数据很重要。传统的数据收集方法包括昂贵的设备、精确的操作,耗时且实验室密集,往往缺乏灵活性。最近,已经提出了一些高效且成本效益高的方法来收集和培训高质量的演示数据。本节将讨论在真实世界和模拟环境中收集数据的各种方法。图16显示了来自真实世界和模拟环境的演示数据。
Embodied Control
xx控制通过与环境的交互进行学习,并使用奖励机制优化行为以获得最优策略,从而避免了传统物理建模方法的缺点。具体的控制方法可分为两类:
• Deep Reinforcement Learning (DRL)
• Imitation Learning
挑战和
未来方向
尽管xx人工智能发展迅速,但它面临着一些挑战,并提出了令人兴奋的未来方向。
高质量的机器人数据集:获得足够的现实世界机器人数据仍然是一个重大挑战。收集这些数据既费时又耗费资源。仅依靠模拟数据最糟糕的是模拟到实际的差距问题。创建多样化的现实世界机器人数据集需要各机构之间密切而广泛的合作。此外,开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。目前的工作RT-1]使用了基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的效果,但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的通用化实体模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助现实世界的数据。
高效利用人类演示数据:高效利用人类展示数据涉及利用人们展示的动作和行为来训练和改进机器人系统。这个过程包括从大规模、高质量的数据集中收集、处理和学习,在这些数据集中,人类执行机器人想要学习的任务。目前的工作R3M使用动作标签和人类演示数据来学习可泛化表示,在一些机器人植草任务中显示出很高的成功率,但复杂任务的效率仍有待提高。因此,重要的是有效地利用大量非结构化、多标签和多模式的人类演示数据,结合动作标签数据来训练能够在相对较短的时间内学习各种任务的实体模型。通过有效地使用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其能够在动态环境中执行复杂的任务。
复杂环境认知:复杂环境认知是指实体主体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。基于广泛的常识,Say-Can利用了预训练的LLM模型的任务分解机制,该机制在简单的任务规划中严重依赖大量的常识,但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境,目前的工作通常依赖于预训练的LLM的任务分解机制,使用广泛的常识知识进行简单的任务规划,同时缺乏对特定场景的理解。提高复杂环境中的知识转移和泛化能力至关重要。一个真正通用的机器人系统应该能够在各种看不见的场景中理解和执行自然语言指令。这需要开发适应性强、可扩展的嵌入式代理架构。
长期任务执行:执行单个指令通常涉及机器人的长期任务,例如"清洁厨房"等命令,其中涉及重新排列物体、扫地、擦桌子等活动。成功完成这些任务需要机器人能够在较长的时间跨度内计划和执行一系列低级动作。虽然目前的高级任务规划人员已经取得了初步的成功,但由于缺乏对具体任务的调整,他们在各种情况下往往被证明是不够的。应对这一挑战需要培养具备强大感知能力和大量常识知识的高效规划者。
因果关系发现:现有的数据驱动的实体代理根据数据中的内在相关性做出决策。然而,这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系,从而导致有偏见的策略。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此,xx代理由世界知识驱动,能够自主进行因果推理,这一点很重要。通过交互理解世界,并通过溯因推理学习其工作原理,我们可以进一步提高多模态xx代理在复杂现实环境中的适应性、决策可靠性和泛化能力。
持续学习:在机器人应用中,持续学习对于在不同环境中部署机器人学习策略至关重要,但它仍然是一个很大程度上未被探索的领域。虽然最近的一些研究考察了持续学习的子主题,如增量学习、快速运动适应和人类在环学习,但这些解决方案通常是为单一任务或平台设计的,还没有考虑基础模型。开放式研究问题和可行的方法包括:1)在对最新数据进行微调时,将不同比例的先验数据分布混合到所有灾难性遗忘中,2)从先验分布或课程中开发高效的原型,用于学习新任务时的任务推理,3)提高在线学习算法的训练稳定性和样本效率,4)确定将大容量模型无缝整合到控制框架中的原则性方法,可能通过分层学习或慢速快速控制,用于实时推理。
统一评估基准:虽然存在许多用于评估低级控制策略的基准,但它们在评估的技能方面往往存在很大差异。此外,这些基准测试中包含的对象和场景通常受到模拟器约束的限制。为了全面评估实体模型,需要使用逼真的模拟器进行包含各种技能的基准测试。关于高级任务规划者,许多基准侧重于通过问答任务评估规划能力。然而,一种更可取的方法是同时评估高级任务规划器和低级控制策略,以执行长期任务并衡量成功率,而不是仅仅依赖于对规划器的孤立评估。这种综合方法对嵌入式人工智能系统的能力进行了更全面的评估。
结论
xx人工智能使智能体能够感知和交互来自网络空间和物理世界的各种物体,这对实现AGI具有重要意义。本次调查广泛回顾了xx机器人、模拟器、四种具有代表性的xx任务:视觉主动感知、xx交互、xx代理和模拟现实机器人控制,以及未来的研究方向。对xx机器人、模拟器、数据集和方法的比较总结清晰地展示了xx人工智能的最新发展,这极大地有利于沿着这一新兴和有前景的研究方向进行未来的研究。
.
#Any2Point
赋能多模态大型模型以实现高效的3D理解
最近,大型基础模型已成为备受瞩目的焦点,在广泛的场景中取得了卓越的性能。由于3D数据的稀缺性,人们已经做出了许多努力,将预训练的Transformer模型从视觉领域迁移到3D领域。然而,这种从2D到3D的方法仍然受到限制,因为可能会丢失空间几何信息,并且计算成本高昂。更重要的是,这些框架主要是为2D模型设计的,缺乏通用的任何到3D的范式。这里介绍了Any2Point,这是一种参数高效的方法,用于增强任何模态的大型模型(视觉、语言、音频)以进行3D理解。给定来自任何源模态的冻结Transformer模型,我们提出了一种3D到任何(1D或2D)的虚拟投影策略,该策略将输入的3D点与源模态内的原始1D或2D位置相关联。这种机制能够为每个3D标记分配一个与预训练模型配对的位置编码,从而避免了真实投影导致的3D几何信息丢失,并更好地激励Transformer利用1D/2D位置先验进行3D学习。然后,在每个Transformer block中,我们插入了一个任何到3D的引导适配器模块,以实现参数高效的微调。该适配器结合了来自源模态的先验空间知识,以指导3D标记的局部特征聚合,从而强制任何模态的Transformer进行语义适应。这里进行了广泛的实验,以展示方法的有效性和效率。代码已发布在https://github.com/Ivan-Tang-3D/Any2Point。
行业背景介绍
随着模型参数和训练数据量的不断增长,大型基础模型在多种领域和任务中获得了前所未有的关注。许多大型模型已经针对自然语言处理进行了预训练,包括BERT、T5以及GPT系列,以及用于视觉理解的模型,如DINOV2、MAE、以及ViT-22B。现有工作还探索了高效的微调技术,以将预训练的大型模型迁移到各种下游任务中,并持续取得了出色的性能。同时,3D视觉理解也是一个重要课题,其丰富的几何表示有助于许多应用的发展。然而,由于缺乏大规模的3D数据,与语言和二维视觉相比,3D基础模态的发展明显滞后。具体来说,高质量3D数据的获取和标注需要昂贵的资源和人力,而合成3D数据训练则缺乏分布多样性和实际应用。
因此,一些先前的工作已经将从其他模态(主要是2D视觉)预训练的模型迁移到3D模态,利用来自不同源的大量预训练知识。我们将现有的2D到3D的工作分为两组。1) 数据模态转换。这类方法涉及将3D点云投影到2D图像中,然后将其输入到2D预训练模型中。尽管在下游任务中取得了令人瞩目的性能,但模态转换过程不可避免地会导致3D数据中空间信息的丢失,从而阻碍了3D理解的全部潜力。2) 跨模态知识蒸馏。这些方法涉及将2D或视觉-语言模型的预训练知识转移到新训练的3D模型中。它们不仅需要在训练过程中前向传播2D和3D模型,而且还高度依赖于大规模的配对2D-3D数据。这导致了巨大的计算成本和数据工程工作,限制了它们的高效实现能力。除了上述问题外,更重要的是,当前的方法大多侧重于从2D视觉到3D点云的模型适应,而不是其他模态的通用方法。因此,我们提出一个问题:能否开发一个通用的任何到3D的范式,以增强任何模态的大型模型,从而实现高效且有效的点云理解?
为了解决这个问题,这里提出了Any2Point,一个统一的任何到3D的框架,它利用参数高效的微调(PEFT)将任何1D(语言)或2D(图像/音频)大型模型迁移到3D领域,如图1所示。与先前的方法不同,Any2Point避免了点云投影,从而减轻了3D信息的丢失,并直接对来自源模态的预训练模型进行微调,通过知识蒸馏节省资源。具体来说,给定一个任何模态的预训练Transformer,首先引入了一个3D到任何(1D或2D)的虚拟投影机制。该机制在输入3D点和它们虚拟投影的1D线或2D平面之间建立了位置映射。这使我们能够使用预训练大型模型源模态的原始位置嵌入来编码3D坐标。这样,我们不再需要进行真正的投影而丢失3D几何形状,同时更好地促进预训练的Transformer利用其原始的1D/2D位置先验来获取3D特征。然后,对于每个Transformer块,我们插入了一个用于PEFT的任何到3D引导适配器模块。该适配器利用1D/2D空间引导来聚合3D标记的局部语义,促进细粒度的特征交互。之后,根据不同的1D/2D先验对3D特征进行自适应集成,从而获得更优的3D表示。
在多个任务上的广泛实验表明,Any2Point框架在仅使用1.0%的可训练参数的情况下,相比当前的3D预训练模型实现了卓越的性能。使用预训练的CLIP文本编码器,Any2Point仅微调了0.8M参数,在ScanObjectNN数据集上达到了91.9%的准确率,比先前的最先进(SOTA)3D预训练模型高出+1.3%,在ModelNet40数据集上达到了94.3%的准确率。此外,Any2Point还通过使用包括2D视觉、语言和音频在内的不同模态的其他预训练模型,实现了相当的结果和效率,验证了提出的方法的鲁棒性。主要贡献如下:
• 为了实现一个通用的任何到3D的迁移框架,这里提出了Any2Point,它赋能了任何模态的预训练大型模型(如2D视觉、语言和音频)以实现高效的3D理解。
• 引入了两项技术,即3D到任何虚拟投影和任何到3D引导适配器,以有效解决当前方法中的问题,如3D几何信息丢失和过高的资源成本。
• Any2Point在多个任务上相比之前的SOTA 3D预训练模型实现了卓越的性能。值得注意的是,通过利用来自不同模态(如2D视觉、语言和音频)的预训练模型,这些具有竞争力的结果仍然保持一致。
Any2Point结构
1)方法概述
问题定义。给定来自任何模态(如视觉、语言和音频)的预训练Transformer,目标是以有效且高效的方式赋予其3D理解能力。这里并不打算在3D数据上进行全面微调,而是寻求一种参数高效的解决方案,同时保持源Transformer冻结,因为它们在有限的3D数据集上可能会因为大规模参数而导致高计算成本和过拟合问题。一般根据预训练数据的维度将源模型分为两类,分别称为1D Transformer和2D Transformer。1D Transformer专门用于处理序列数据,以语言模型为例,如RoBERTa、T5和CLIP的文本编码器。2D Transformer擅长处理2D空间数据,包括视觉模型,如DINOv2和DeiT,以及音频模型,如ImageBind音频编码器和SSAST。
模型流程。Any2Point的总体范式如图2所示,为了对输入的点云进行编码,丢弃了源Transformer中的原始嵌入模块(例如,1D语言模型中的分词器和2D视觉/音频模型中的卷积),并采用了一个3D小型网络来进行点云分词。在此基础上,编码后的3D分词首先被送入3D到任何模态的虚拟投影模块进行位置编码,然后送入冻结的1D/2D Transformer中,并配备了任何到3D的引导适配器。前者机制旨在为每个3D分词分配在源模态内的位置信息,而后者则是为了进行自适应的1D/2D引导下的3D表示学习。请注意,由于源Transformer保持冻结状态,因此只有初始分词网络和插入的适配器是可学习的,以实现参数高效的微调。
2)3D-to-any Virtual Projection
目前许多2D到3D的方法研究,都是将3D点云投影到多视图图像中,以满足预训练的2D模型的输入模态。这种降维过程可能会导致3D几何形状和深度测量的信息丢失,从而导致3D特征编码不足。此外,这些方法仅在2D图像中的大型模型上进行了验证,而没有考虑其他模态,如语言和音频。因此,我们提出了一种3D到任何模态的虚拟投影策略,该策略可以减轻几何损失,并且可以推广到任何1D/2D预训练模型,如图3所示。
3D空间中的分词。为了避免任何信息退化,这里直接在3D空间中对输入的点云进行分词,以便后续的1D/2D Transformer处理。具体来说,采用了一个包含小规模参数的3D小型网络,它是Point-PN的一个更轻量级的变体。分词过程包括使用最远点采样进行点数下采样,使用k最近邻(k-NN)算法进行局部聚合,以及使用可学习的线性层进行特征编码。之后,我们将原始点云转换为高维向量,获得N个3D分词作为,其中表示它们的3D坐标。
虚拟投影的动机。位置编码(PEs)是Transformer模型中位置信息的唯一指示器,因为内部的注意力机制是置换不变的,即它将以不同顺序处理的每个分词视为相同。因此,对于1D/2D Transformer来说,理解3D位置信息的一种直接方式是将新的3D PEs与3D分词结合起来。然而,源Transformer是在与它们在1D/2D空间中的原始PEs配对的情况下进行预训练的,这导致了冻结的1D/2D权重与新学习的3D PEs之间的语义差异。为了解决这个问题,将3D分词虚拟地投影到源模态中,并获得相应的1D/2D PEs,以便更好地与Transformer对齐。
3D到2D的虚拟投影。对于2D视觉和音频模态中的2D Transformer,将每个3D坐标虚拟地投影到M个视图中,推导出对应的2D坐标作为。这M个不同的视角能够在2D空间内提供多样的位置关系。这里采用了PointCLIP中的简单投影方法,且没有可学习的参数。重要的是,并没有真正生成投影后的多视图图像,而只是旨在获得虚拟的2D位置。然后,根据预训练Transformer中的原始2D PEs,为每个3D分词(例如Ti)分配M个不同的PEs,表示为。
3D到1D的虚拟投影。类似地,对于语言模态中的1D Transformer,我们将3D坐标虚拟地投影到不同的1D直线上。为了与2D模态中的数量保持一致,我们也选择了M条穿过点云中心的直线,这些直线具有M个均匀的旋转角度。
在1D/2D位置编码中编码3D位置。在获取对应的1D/2D位置编码后,我们将它们平均作为整体位置指示器,并将其与3D标记(如Ti)结合,通过以下方式:

3)Any-to-3D Guided Adapter
与现有的基于蒸馏的方法不同,我们直接将编码后的3D标记输入到预训练的1D/2D Transformer中。尽管3D标记的位置编码(PEs)已经与源模型对齐,但其他模态预训练得到的完全冻结的权重仍然受限于学习优越的3D表示。考虑到这一点,我们在每个Transformer块中引入了一个可学习的任意到3D引导适配器,如图4所示。适配器被插入到前馈网络(FFN)之后,并进一步融合了1D/2D先验知识,以实现参数高效的微调。
插入适配器的动机。源Transformer中的自注意力机制通常关注全局上下文中的长距离标记交互,这缺乏局部特征提取。然而,详细的空间几何形状对于3D形状的细粒度理解也是至关重要的。为了弥补这一差距,我们利用提出的适配器层来专门捕获局部邻域内的3D语义。此外,如上所述,由于源Transformer由1D/2D位置编码驱动,因此简单地将FPS(最远点采样)和k-NN(k最近邻)用于3D局部分组可能会导致位置不一致。因此,我们进一步设计了一种1D/2D引导聚合策略和一种自适应的任意到3D集成方法,以实现稳健的3D细粒度编码。
1D/2D引导下的局部聚合。在适配器中,首先根据1D/2D位置先验将3D标记分组到不同的局部邻域中,以更好地对齐所采用的1D/2D位置编码(PEs)。对于M个不同的视图/线,我们执行M个并发的局部聚合过程,以充分利用不同的投影视角。具体而言,对于2D Transformer,将每个虚拟投影图像(如第j个视图)划分为均匀的局部2D块,并根据它们的2D位置将处于同一块中的3D标记分组为一个邻域。对于1D Transformer,我们类似地将每个虚拟投影线(如第j个方向)划分为均匀的局部1D段,并根据它们的1D位置将不同段中的3D标记分组。在此基础上,我们为每个1D/2D邻域内的3D标记采用一个自注意力层,执行由1D/2D先验指导的局部特征交互。然后,我们采用池化和传播操作将局部聚合特征传播到同一邻域内的每个点。
自适应任意到3D集成。在并行局部聚合之后,我们获得M组3D标记,每组代表一个2D视图或1D线。由于不同的投影视角通常对3D表示具有不同的重要性,我们提出了一种自适应的任意到3D集成方法来聚合每个标记的M个特征。我们将此阶段具有M组特征的第i个3D标记表示为。为了正确指示每个视图/线的相对重要性,我们还采用了一个独立于M个2D引导局部聚合的3D特征转换分支。这个非参数分支仅包含3D空间中的局部分组、局部组内的特征平均池化以及传播操作,将适配器之前的3D标记转换为自适应集成的特征基线,表示为。然后,我们通过余弦相似度计算不同视图/线的相对权重,并最终聚合它们的特征以获得最终输出,如下所示:

通过集成策略,将M个具有动态权重的不同特征进行融合,使得适配器能够自适应地确定哪个视图/线更为关键,从而贡献出高质量的适配特征。
实验对比
1)实验设置
ScanObjectNN 数据集
ScanObjectNN 数据集由现实世界中的3D物体扫描组成,被分为15个不同的类别。我们选择了最具挑战性的PB-T50-RS划分来测试Any2Point框架的性能,且不使用投票策略。对于所有模型,都采用了AdamW优化器和CosineAnnealing调度器。初始学习率设置为5e-4,权重衰减因子为0.05。以32的bs对模型进行了300个轮次的微调。在数据增强方面,使用了随机缩放、平移和旋转。对于语言、2D视觉和音频模态,分别选择了CLIP文本编码器、DINO V2和ImageBind音频编码器作为预训练模型。对于这三个模型,Transformer架构是相同的:一个具有768个特征通道和1024个输入点数的12块编码器。在3D到任意模态的虚拟投影中,超参数M设置为6,且对于任意模态的Transformer使用相同的角度。为了匹配预训练模型中原始位置编码的形状,在语言模态下将3D点虚拟投影到长度为77、线大小为2的1D线段上;在2D视觉模态下投影到一个尺寸为512x512、块大小为26的2D平面上;在音频模态下则投影到一个尺寸为192x304、块大小为16的2D平面上。
ModelNet40 数据集
ModelNet40数据集包含40类合成的3D CAD模型,共有9,843个训练样本和2,468个测试样本。在ModelNet40的实验中,采用了与ScanObjectNN相同的微调设置和相同的预训练模型。在数据增强方面,使用了默认的随机缩放和平移。值得注意的是,在测试过程中,没有使用投票策略。
.
#EV-Voxel
自动驾驶中占用预测的快速准确方法
占用预测在自动驾驶(AD)中扮演着至关重要的角色,因为它具有细粒度的几何感知和通用目标识别能力。然而,现有的方法往往会产生较高的计算成本,这与AD的实时需求相矛盾。
为此,作者首先评估了大多数公开可用方法的速度和内存使用情况,旨在将重点从单纯优先考虑准确度转向同时考虑效率。接着,作者确定了一个在实现快速和准确性能方面的核心挑战:几何与语义之间的强烈耦合。
为了解决这个问题,作者采取了以下措施:
作者提出了一个几何-语义双分支网络(GSDBN),采用混合的鸟瞰图(BEV)- Voxel 表示。在BEV分支中,引入了BEV Level 的时序融合模块和U-Net编码器以提取密集的语义特征。在 Voxel 分支中,作者提出了一种大核重新参数化的3D卷积来细化稀疏的3D几何并减少计算量。此外,作者还提出了一个新颖的BEV- Voxel 提升模块,它将BEV特征投影到 Voxel 空间以实现两个分支的特征融合。
除了网络设计之外,作者还提出了一个几何-语义解耦学习(GSDL)策略。该策略最初使用准确的几何 GT 深度学习语义,然后逐渐混合预测的深度以使模型适应预测的几何。在广泛使用的Occ3D-nuScenes基准上的大量实验证明了作者方法的优势,它实现了39.4 mIoU的准确度,同时保持了20.0 FPS的处理速度。与CVPR2023 3D占用预测挑战赛的获胜者FB-OCC相比,这个结果大约快了3倍,并且mIoU提高了1.9。
1 Introduction
基于视觉的占用预测[1]利用 ego 车辆的环视摄像头图像来估计 Voxel 空间内的物体占用和语义。与3D目标检测[15, 22, 37]相比,它提供了更细粒度的3D场景感知,并产生了一种无需激光雷达的替代方案。此外,通过确定网格单元内的物体存在,占用预测模型可以有效识别一般物体,有效处理词汇外和异常障碍物。
尽管具有这些优势,现有方法通常受限于较低的计算速度和较高的内存使用,这是由于3D Voxel 特征的高计算成本所致。这些限制阻碍了它们在配备车载GPU的自动驾驶车辆中的应用。为了将重点从单纯优先考虑准确性转向同时考虑部署友好性,作者对大多数可用的公共方法进行了广泛的速度和内存使用评估。
图1:占用预测方法在Occ3D-nuScenes[32]基准上的推理速度(FPS)和准确性(mIoU)。GSD-Occ在实时性方面具有明显的准确性优势。

通过对现有方法的广泛回顾和评估,作者确定了一个实现快速和准确性能的核心挑战:几何与语义之间的强烈耦合。如图2所示,几何预测(深度)作为2D到3D特征投影的输入,并影响下游的语义分类。因此,预测深度的不准确会破坏特征的判别力,并增加优化难度。为了解决这个问题,作者提出从网络设计和学习策略两个角度解耦几何学习和语义学习。

在网络设计方面,现有方法主要依赖重的3D网络[11, 24]同时细化几何结构并学习语义知识。然而,3D网络的高计算成本对于实时方法是难以承受的。最近,一些研究[10, 38]将3D Voxel 特征压缩为鸟瞰图(BEV)特征以提高效率,但它们通常无法达到满意的准确度(例如,图1中的FastOcc[10]),因为BEV表示丧失了高度信息[24]。因此,采用结合了BEV表示的计算效率和 Voxel 表示的几何完整性的混合BEV- Voxel 表示,既是自然而然的,也是大有希望的。为此,作者提出了一个基于两种原则指导的几何-语义双分支网络(GS-DBN):"稀疏几何"和"密集语义"。在BEV分支中,作者采用了具有U-Net[29]结构的鸟瞰图 Level 时间融合和一个2D语义编码器来提取密集的语义特征。在 Voxel 分支中,作者提出了一个具有重参化3D大核卷积的3D几何编码器,它通过增强感受野来细化稀疏的几何结构,并通过重参化技术减少计算量。为了融合两个分支的特征,作者提出了一个BEV- Voxel 提升模块,它沿着高度维度将鸟瞰图 Level 的语义特征投影到 Voxel 空间,从而有效地恢复丢失的高度信息。
关于学习策略,继Lift-Splat-Shoot (LSS) [26]之后,几乎所有现有方法都直接使用预测深度进行2D到3D视角转换。然而,它们忽略了预测深度并不总是准确,尤其是在训练的早期阶段,这加剧了耦合问题,并导致优化不稳定。受到语言模型[2, 27, 28]的启发,这些模型提供顺序的 GT 标记来预测下一个标记,作者在训练期间用 GT 深度替换预测深度进行2D到3D视角转换。然而,当在测试中使用预测深度时,这种策略表现不佳,因为模型没有适应预测深度,并且无法校正预测几何中的错误。为此,作者引入了一种几何-语义解耦学习(GSDL)策略。最初,作者使用 GT 深度进行2D到3D视角转换,以保持准确的几何结构,便于进行孤立的语义学习。逐渐地,作者将 GT 深度与预测深度混合,使模型能够学习细化预测的几何形状。通过解耦几何细化与语义知识的学习,作者有效地降低了优化难度,在不产生额外部署成本的情况下实现了进一步的准确度提升。
作者的贡献可以总结如下:
作者对大多数公开可用的方法的速度和内存使用进行了广泛评估,旨在将关注点从单纯优先考虑准确度转向同时考虑部署友好性。
作者提出了一种双分支网络,采用混合BEV- Voxel 表示,将稀疏几何学习和密集语义学习分离,确保了计算效率和几何完整性。
作者提出了一种新颖的学习策略,以解耦几何细化和语义知识的学习,这在各种预训练模型和方法中均实现了稳定的准确度提升。
作者提出了GSD-Occ,一种几何-语义解耦占用预测器,为实时占用预测建立了新的技术水平,实现了39.4 mIoU和20.0 FPS。
2 Related works
基于视觉的鸟瞰图感知。 鸟瞰图(BEV)感知方法[16]最近取得了显著进展,由于其计算效率和丰富的视觉语义,发展成为自动驾驶(AD)中的一个关键组成部分。通过利用2D到3D视图变换将相机图像特征投影到BEV表示中,可以将多个任务集成到一个统一框架中。视图变换大致可以分为两类:正向投影和反向投影。前者采用显式深度估计将图像特征投影到3D空间。相比之下,后者首先初始化一个BEV空间,然后通过空间交叉注意力隐式地建模深度信息。尽管BEV感知在3D目标检测方面表现出色,但在处理自动驾驶安全至关重要的极端情况和词汇外目标方面仍存在困难。为了解决这个问题,提出了3D占用预测,很快在AD中成为了一个有前景的解决方案[1]。
3D占用预测。 3D占用预测使用连续 Voxel 网格重建3D空间,这为检测一般目标提供了增强的几何信息和能力。一个直接的想法是将3D目标检测方法的BEV表示替换为 Voxel 表示,然后附加一个分割头。然而,与BEV相比, Voxel 表示带来了相当大的计算和内存成本。为了解决这个问题,TPVFormer[13]将3D空间划分为三个视图平面进行特征提取,然后通过插值恢复 Voxel 表示。SurroundOcc和CTF-Occ[32]利用多尺度编码器逐步增强 Voxel 表示。FB-OCC[21]采用正向和反向视图变换的混合来完成稀疏 Voxel 特征。COTR[24]提出了一种通过下采样获得紧凑 Voxel 表示的方法,但其特征增强网络过于庞大,显著降低了运行速度。PannoOcc[34]基于占用表示引入了一种新颖的全景分割任务,并采用稀疏3D卷积减少计算量。尽管在准确性上取得了进展,但现有方法通常受到速度和内存限制的困扰。因此,作者建立了一个包含速度和内存使用的基准,以提供更全面和公平的方法评估。
部署友好的占用预测。 最近,一些研究工作关注占用预测的部署友好性。例如,FlashOcc[38]直接使用BEV表示预测几何和语义,从而降低了计算成本。同样,FastOcc[10]采用了BEV表示,但通过整合从视图变换获得的 Voxel 特征的残差结构来增强它。SparseOcc[31]采用纯稀疏 Transformer 基网络以减少计算。然而,这些方法通常只评估有限方法集的速度或内存使用。为了建立一个全面且公平的评估基准,这项工作在相同的实验环境下评估了大多数可公开获得的方法。此外,尽管现有方法在效率上有了显著提升,但它们通常无法在实时条件下达到满意的准确性。本文通过解耦几何和语义的学习,同时实现了实时和高精度的性能,以解决这一局限性。
3 Method
3.1 数据收集与预处理
在这一部分,作者将详细描述数据收集的过程以及为后续分析所做的预处理步骤。
Problem Formulation
给定来自 个环视相机的图像序列 ,跨越 帧,其中 和 。每帧中的相机内参 和外参 也是已知的。基于视觉的3D占用预测旨在估计 ego 车辆周围范围内 的3D Voxel 的状态。3D Voxel 形状为 (例如,在 [32] 中的 [200,200,16]),其中
Overall Architecture
图3展示了几何-语义解耦占用预测器(GSD-Occ)的概览,包括一个图像编码器来提取图像特征,一个2D到3D的视图转换将图像特征投影到3D空间,一个几何-语义双分支网络(第3.3节)以有效保持几何完整性并提取丰富的语义信息,以及一个几何-语义解耦学习策略(第3.4节)进一步强化了几何细化和语义学习的能力。

图像编码器。 在第帧给定一组环视摄像头图像,表示为,作者采用一个预训练的主干网络(例如,ResNet-50 [9])来提取图像特征,其中和分别是图像和特征的结构。是 ego-vehicle 上摄像头的数量。2D到3D视图转换。 2D到3D视图转换旨在将2D图像特征转换为 Voxel 表示。鉴于实时模型的学习能力有限,作者采用了一个由深度监督的显式视图转换模块[26]。具体来说,图像特征首先输入到DepthNet [18]中以生成预测的深度分布,其中是深度分箱的数量。通过外积,以和作为输入,可以获得伪点云特征。最后,对应用 Voxel 池化以获得 Voxel 特征,并执行下采样以降低计算复杂度。
Geometric-Semantic Dual-Branch Network
几何-语义双分支网络(GSDBN)模块背后的关键思想是采用混合的BEV- Voxel 表示方法,其中稀疏的 Voxel 特征作为"骨架"来保持3D几何信息,而计算高效的BEV特征则作为"血肉"用语义信息来完善 Voxel 特征。作者首先详细阐述了GSDBN设计的两个原则,即"稀疏几何"和"密集语义"。
(1)3D占用栅格中的稀疏几何反映了物理世界的离散化,这导致了 Voxel 特征的稀疏性,在2D到3D视图转换后,超过35%的值变为零。
(2)另一方面,密集语义对于维持模型的分类能力是必要的,因为过多的零值会严重降低性能。
然后,作者基于这两个关键原则详细介绍了GSDBN。
3.3.1 Semantic BEV Branch
图4:3D几何编码器中大型核3D卷积重参化技术的说明。

该技术采用并行的膨胀小型核3D卷积来增强非膨胀大型核3D卷积。本例展示的是。
多摄像头图像首先被送入图像 Backbone 网络以获取图像特征,并使用DepthNet [18]预测深度分布。随后,采用Lift-Splat-Shoot (LSS) [26]模块将2D图像特征显式转换为3D Voxel 特征。接着,几何-语义双分支网络利用混合的BEV- Voxel 表示有效地维持几何结构同时提取丰富的语义信息。几何-语义解耦学习策略将 GT 深度注入LSS,以分离几何校正和语义知识的学习,从而进一步提高准确性。
BEV级时间融合。
为了减少计算和内存成本,作者提出使用BEV特征代替[21]中用于时间融合的 Voxel 特征。此外,作者引入了[25]中的历史特征队列,以避免[11, 24, 38]中的耗时且重复的特征重新计算。具体来说,作者将 Voxel 特征沿着高度维度折叠以获得BEV特征,并维护一个长度为的记忆队列来存储历史BEV特征。为了将历史帧的BEV特征与当前帧融合,作者首先将它们变换到当前时间戳,然后通过2D卷积处理以获得时间BEV特征。Voxel 特征的稀疏性使得BEV特征能够保留丰富信息,从而产生可接受的准确性下降(0.69 mIoU)和显著的推理时间减少(0.025秒)。
2D语义编码器。
作者采用轻量级的2D类似UNet [30]编码器来提取富含语义信息的特征。具体来说,时间BEV特征被下采样并通过4倍上采样,使用残差融合多尺度特征。这个过程产生了语义BEV特征。
3.3.2 Geometric Voxel Branch
3D几何编码器。 受[7, 8]的启发,作者通过设计一个具有大核的重新参数化的3D卷积来扩展重参化技术到3D占有预测,以进行几何编码。通过这种方式,作者可以增强 Voxel 特征的感受野以细化几何结构,同时重参化技术显著减少了推理时间。
在训练过程中,作者采用了非膨胀的小核3D卷积以及批量归一化(BN)层的多个膨胀小核3D卷积。这种组合有助于捕捉小尺度模式并增强感受野。在推理过程中,这些并行的 小核3D卷积可以转换成大核卷积以提高效率。
如图4所示,作者展示了一个尺寸为等于的3D卷积核的案例。由于在输入中省略像素等同于在卷积中插入额外的零条目,具有小核的膨胀卷积可以等价地转换为具有稀疏大核的非膨胀卷积[8]。对于具有膨胀率的小型3D卷积核,这种转换可以通过转置卷积优雅地实现:
其中和表示步长。然后,稀疏核和随后的3D BN层(包含累积均值、标准差、学习到的缩放因子和学习到的偏置)可以转换为一个带有偏置向量的卷积。
最终大核的权重和偏置可以通过对小核卷积的多个并行操作中和进行求和得到:
其中是小核卷积的数量,是一个零填充函数,用于将填充至大核的大小。最终,通过使用大核的权重和偏置执行3D卷积,可以得到几何 Voxel 特征。
BEV Voxel 提升模块。 为了融合BEV和 Voxel 分支的输出,作者提出了一个BEV Voxel 提升(BVL)模块,该模块将BEV特征投影到 Voxel 空间。这一设计受到LSS [26]的启发,但它是沿着高度维度投影BEV特征,而不是沿着深度维度投影图像特征。如图3所示,BVL模块应用于时序BEV特征和语义BEV特征。例如,以作为输入,一个上下文分支生成高度感知特征,而一个高度分支预测高度分布。然后,通过外积获得语义 Voxel 特征。最后,通过将几何 Voxel 特征与语义 Voxel 特征相加,然后使用转置3D卷积进行2倍上采样,得到几何-语义解耦特征:。
Geometric-Semantic Decoupled Learning
在第3.3节中,GSDBN模块通过双分支网络设计有效地缓解了几何与语义之间的耦合问题。在本节中,作者从学习的角度进一步考虑这个问题。作者关注一个对于2D到3D视角转换至关重要的组成部分,即LSS模块,它通过预测深度分布将图像特征投影到 Voxel 空间。然而,由于预测深度并不总是准确,尤其是在训练的早期阶段,这会加剧耦合问题并导致优化不稳定。
一个直观的想法是在训练期间直接用 GT 深度替换LSS中的预测深度,而在推理时使用预测深度。这种策略受到语言模型[2, 27, 28]的启发,在这些模型中,在训练期间提供顺序的真实标记以预测下一个标记,但在推理时预测完整的句子。然而,这种策略表现不佳,因为模型没有学会如何细化预测的几何形状。
为了解决这个问题,作者提出了一个几何与语义解耦学习(GSDL)策略。具体来说,在训练开始时,作者将 GT 深度 引入到LSS中,这样模型可以分别专注于利用准确的 GT 几何来学习语义。随后,在训练过程中,作者逐渐将 GT 深度 与预测深度 混合,以使模型适应预测的几何形状。通过使用一个因子 进行算术平均,可以得到混合深度 :
的值由一个投影函数决定,该函数随训练迭代次数单调递增。作者首先将迭代次数的范围从 转换为 ,其中 是最大训练迭代次数,而
其中 是控制混合斜率的参数。由于在训练结束时 ,模型获得了细化预测几何的能力,并且在推理时不再需要 GT 深度。
4 Experiments
4 Experiments
在本节中,作者将详细阐述所进行的实验,以及实验的设计和分析结果。
Experimental Setup
作者使用Occ3D-nuScenes 基准来评估作者的模型,该基准基于nuScenes [3] 数据集,并为CVPR2023 3D占用预测挑战而构建。数据集包含1000个视频,分为700个用于训练,150个用于验证,以及150个用于测试。每个视频的关键帧包含一个32束激光雷达点云、六个来自环视摄像头的RGB图像,以及密集的 Voxel 级语义占用标注。在3D Voxel 空间中的感知范围是,每个 Voxel 的大小为 [0.4m, 0.4m, 0.4m]。Voxel 包含18个类别,其中包括16个已知目标类别,一个标记为"其他"的未知目标类别,以及一个"空"类别。遵循之前的工作 [10, 21, 32, 38],作者使用所有类别上的平均交并比(mIoU)来评估准确性。
Implementation Details
遵循常见做法,作者采用ResNet-50[9]作为图像 Backbone 网络。作者维护一个长度为15的记忆队列以存储历史特征,并通过16帧融合时间信息。在几何编码器中的大核重参化3D卷积中,作者将卷积核的大小设置为[11, 11, 1]。在几何-语义解耦学习中,陡度参数被设置为5。在训练过程中,作者在8个Nvida A100 GPU上使用32的批处理大小。除非另有说明,所有模型都使用AdamW优化器[23]进行训练,学习率为,权重衰减为0.05,共训练24个周期。在推理过程中,作者在单个Nvidia A100 GPU上使用批处理大小为1。通过mmdetection3d代码库[5]测试FPS和内存指标。
Main Results
在表1和图1中,作者对比了GSD-Occ与先前最先进(SOTA)方法在Occ3D-nuScenes验证集上的表现。GSD-Occ在实现与非实时方法相当或更好的准确度的同时,展现了实时推理速度和低内存使用。与获得2023年CVPR占用挑战赛冠军的FB-Occ [21]相比,GSD-Occ的速度大约快了3倍,并在mIoU上提升了1.9%。相较于其他实时占用预测方法,GSD-Occ在mIoU上显著高出5.2%,并且速度甚至快于FastOCC [10]。这些结果突显了作者的方法中几何与语义解耦的有效性。当作者把GSD-Occ的输入图像大小提高到2倍时,mIoU进一步提升了2.3%,而无需任何额外修饰。推理速度降低了2倍,这表明输入大小与推理速度之间几乎呈线性关系。这一特性使得GSD-Occ能够高效处理高分辨率图像。与更近期的方法相比,GSD-Occ的mIoU仅比PannoOcc [34]低0.4%,但它速度快了大约3倍,并且只使用了大约50%的内存。尽管COTR [24]的mIoU比GSD-Occ高出2.8%,但其速度显著较慢(超过10倍)。此外,作者在表2中报告了[31]提出的RayIoU指标。与最近的SOTA方法SparseOcc [31]相比,GSD-Occ在速度更快和内存使用更低的情况下,mIoU高出4.9%。


作者在图5中进一步提供了定性结果。尽管大幅减少了计算量,作者的方法也能有效地感知几何细节(即使在第二行线索很少的情况下)和准确的语义(第三行)。此外,作者的方法在夜间条件下(第四行)也表现良好。

Ablations
在本部分中,作者在Occ3d-nuScenes验证集上进行了消融实验,以深入探究每个模块的影响。
4.4.1 Ablations on GSDBN
表3展示了结果,作者可以观察到几何-语义双分支网络(GSDBN)的每个组成部分都对整体性能有所贡献。缺乏时序融合以及2D和3D编码器的基准模型,虽然达到了快速的处理速度(27.0 FPS),但在准确性(35.11% mIoU)方面表现不足。对于时序融合,虽然应用 Voxel 特征相比于使用鸟瞰图(BEV)特征带来了0.69%的mIoU提升,但也引入了显著的推理延迟(0.029秒),相对于准确性的提升来说,这个代价是高昂的。将GSDBN模块集成到基准模型中,使得mIoU提高了3.79%,而计算成本的增加相对较小(速度从27.0 FPS降低到20.0 FPS)。这表明GSDBN通过混合BEV- Voxel 表示有效地分离了几何和语义的学习,既高效又有效。

4.4.2 Ablations on GSDL
为了证明几何-语义解耦学习(GSDL)的有效性,作者将其实施于不同的预训练模型和方法,如表格4所示。在不产生额外计算成本的情况下,GSDL在不同的预训练模型(BEVDepth [18] 和 ImageNet [6])和方法(FB-OCC [21] 和作者的 GSD-Occ)上均实现了稳定的准确度提升。这突显了GSDL的泛化能力,其通过一种简单而有效的学习策略进一步解耦了几何与语义。
4.4.3 Additional Ablations

BVL的有效性。 如表5所示,作者比较了BEV-Voxel提升(BVL)模块与其他现有方法,结果显示BVL模块在速度最快的同时达到了最高的准确度,证明了其有效性。历史帧越多越好吗? 如表6所示,作者探讨了不同时间序列长度的影响:短(1),中等(7),长(15)和非常长(31)。结果表明,长时间序列融合实现了最高的准确度。由于作者使用BEV特征进行2D时间融合,即使时间序列长度增加,计算成本仍然可承受。
更大的3D卷积核是否更好? 在表7中,作者展示了不同 Kernel 大小在3D重参化卷积中的结果。采用的 Kernel 大小达到了最高的准确度。这表明,校正几何误差需要相对较大的感受野,但过大的 Kernel 可能会适得其反。此外,得益于作者采用的重参化技术,推理速度从18.6 FPS显著提升到20.0 FPS。
预测和 GT 深度混合曲线应该是平滑还是陡峭? 如图6所示,作者绘制了方程5的曲线,并进行了实验,以探索GSDL中不同陡度 Level 的影响。当陡度参数设置为5时,作者取得了最高的准确度。这表明过于平滑的混合曲线可能会阻碍模型适应预测深度的能力,而过于陡峭的曲线可能会使训练过程复杂化。

5 Conclusion
具体来说,作者提出了一种结合了混合BEV-Voxel表示的几何-语义双分支网络,该网络既保持了计算效率又保持了几何完整性。
此外,作者提出了一种几何-语义解耦学习策略,它将几何校正和语义知识的 学习分离开来,从而在多种预训练模型和方法中一致地提高了准确度。为了验证作者方法的有效性,作者在Occ3D-nuScenes基准上比较了GSD-Occ与最近的领先(SOTA)方法。
结果表明,GSD-Occ在实时占用预测方面取得了新的SOTA性能。
.
#地平线正在跻身国内一流智驾行列
前几天北京强降雨,各位晚上下班没少折腾吧?
和大家一块堵在路上的,还有这两位------大众中国 CEO贝瑞德 ,以及地平线创始人、CEO余凯博士:
俩这么大老板,低调到拼一辆大众ID.4下班。
但背后动机不「低调」:
不期而至的北京大雨,成了地平线高阶智驾实力展示最好的舞台。
地平线智驾,什么实力?
根据官方发布的信息,这轮北京强降水持续30个小时,城区平均降水量24.3毫米,地平线所总部所在的西北部30毫米左右,已经达到大雨级别:
这种极端天气对于普通人类司机已经构成很大挑战,明显昨天路上的各类突发事故多了很多,尤其是在不规则路口转弯、汇入汇出等等复杂场景。
但地平线SuperDrive依然全程无接管,成功在暴雨中应对了一系列复杂路况。
比如在一个红绿灯已经明显不起作用的拥堵路口,完成了一次和老司机没差的博弈+左转:
不规则的施工路段,SuperDrive也成功识别了可通行区域,顺利完成左转:
以及在复杂的车流中识别出了公交车专用道,即使变道避让,也可以看成是面对拥堵情况的综合判断变道:
针对突发情况,比如鬼探头、加塞等等,也能及时避让:
还有一个城市场景高难度挑战------环岛而且是一个不规则环岛:
说两点SuperDrive最亮眼的表现,首先是避让动作,流畅优雅,也就是没有急促的刹车、猛打方向这样的动作。
第二是变道动作,旁车道空间小,多数系统会放弃变道或减速等待,但SuperDrive能根据前方空间条件主动加减速或调整转向角度,创造变道机会。
总结一下,SuperDrive在北京暴雨的测试中表现出的最大特点,反而不是零接管,而是"拟人"------驾驶策略拟人,以及执行动作拟人。
之前我们说过,各种智驾测试视频,含金量其实各有不同。通常最真实可信的,是普通用户在日常使用过程中记录的真实体验,前后不太可能有调试或剪辑,相当于智驾系统的"闭卷"考试。
还有就是车企老板的直播、4S店试乘路线等等,一般会针对特定路线进行优化,但控制不了突发情况,属于提前划过重点的"半开卷"考试。
当然也有"开卷"了,就是最常见的发布会或者官方账号发出来的"XX公里零接管"类小视频,大家也能想到,这种材料从策划到成品,最忙的要数剪辑师了。
那么地平线SuperDrive系统在昨天北京大雨中的测试,属于哪个级别?
其实一个最关键的点就能看出来:地平线的拍摄计划,可能很早就做好了,可以从视频中不少恰到好处的第三视角机位看出来。但是,昨天北京的暴雨不是地平线能预料或掌控的。
属于老师本来给你划好了重点考四则运算,但到考场上发现题目变成了微积分。
因为暴雨恶劣天气,对传感器就是一个巨大的的挑战,摄像头采集的图像质量大幅下降,雷达也会传回更多的杂波点云,以及湿滑的路面对于规控也提出更高要求。
但地平线的高阶智驾方案SuperDrive,极其出色的应对了暴雨气候。
以及从官方发布时间也能看出来。昨天北京普遍降暴雨是在晚上五六点钟开始,但地平线官方夜里11点左右就火速发布,加班加点。
按照通常的剧本,拍智驾视频遇到这样的突发 ,要么延后拍摄,要么后期精剪一番晚些发。不得不说地平线的团队头很铁啊,车上带着自己的大老板,还有客户爸爸的大老板,直接就开干了...
不过从另一个角度考虑,也许对地平线来说暴雨来了反而更兴奋,等的就是这样一个机会。
对技术能力欠缺的玩家来说是挑战,但于能力够强的来说,暴雨是证明实力的绝佳case:偶发,且不可复制。
背后是什么技术支撑
刚刚我们把"变道"作为一个亮点单独说,为啥?
不拟人的变道策略,基本上就是屡试屡败,最后只能提示接管,错过出口,把高阶智驾体验搞得支离破碎。
但现实却就是这样:大部分量产高阶智驾,都是用手写规则应对变道场景,判断变道时机的策略和执行方式僵硬刻板,十分劝退。
所以,变道是直接区分NOA水平高下的试金石 ;用户层面,它是智驾"可用"与否最关键的因素。
因为说实话,识别红绿灯、行人,严格跟导航这些功能,只要数据到位,没啥难的,现在基本各家都能做的很好。
地平线一直强调SuperDrive"拟人",就是能在这些细节上给智驾体验带来巨大提升。
两个最主要的技术手段:端到端感知架构,以及数据驱动的交互式博弈算法。
一个是为了智驾系统看的更清楚更明白,一个是让智能代驾的"脑子"更灵活更高效。
端到端感知架构的优势,是避免了模块化算法架构中,数据多级传递造成的"损耗",算法模型一端直接输入传感器数据,另一端直接输出轨迹预测,包括本车的,也包括道路其他交通参与者的。
端到端体现在SuperDrive将动态、静态、OCC(Occupancy占用网络)三网合一,统一在一个Transformer架构下,不需要对感知数据进行抽象和逐级传递,"所见即所得":实现感知端到端同时,又保证了每个子网络的可解释性。
实际上SuperDrive的算法基础,正是来自于智能车参考前几天刚介绍过的CVPR 2023最佳论文成果------UniAD,地平线学者一作。
动态、静态、Occupancy三网合一的感知端到端架构下,有效解决感知架构时延高、规则多、负载重的问题。
感知端到端网络输出的结果,会接着进入数据驱动的交互博弈算法,这一算法也是基于蒙特卡洛树搜索的端到端深度学习算法。
名震一时的围棋AI AlphaGo背后的主要技术之一就是蒙特卡洛树搜索。简单来说,它的基础是一个概率模型,所要求解的问题是某种事件出现的概率。
在智驾场景中,这个"概率"可以是对象来车轨迹、前车变道意图、变道时多个目标的运动轨迹等等...
蒙特卡洛树搜索会通过某种"试验"的方法,得到这种事件出现的频率,或者这个随机变数的平均值。
试验方法,可以是人为定义,不过地平线选择的是通过10000小时高质量驾驶数据来训练,让算法最大程度理解效仿人类老司机的驾驶方法。
这就是上面例子中SuperDrive果断干脆变道的技术核心。
算法之外,SuperDrive"拟人化"还有一个独特优势------软硬结合,征程6系列计算硬件,CPU、BPU()、GPU、全功能的MCU四芯合一。
单颗征程6旗舰即可支持感知、规划决策、控制、座舱感知等全栈计算任务。同时,高集成度令开发难度进一步降低。
J6这一代产品,BPU纳什架构是核心,概括来说是支持大参数AI模型在车端的部署运行。
所以SuperDrive在北京暴雨遭遇战中的优秀表现,其实是"一个时代有一个时代计算架构"这个核心思想的体现。
怎么解读
地平线在北京暴雨中用智驾送老板下班,确实挺厉害的,但有啥用呢?
地平线不是一直称永远作Tier 2,专注硬件吗?
其实透过SuperDrive能力本身,地平线展现出关键的几点。
首先是证明只有在技术体系上重构、变革才能彻底解决城市NOA量产普及问题。
SuperDrive是一个最好的样板间,而实现这个目标的基础,是新的征程6系列。
而从地平线本身来说,SuperDrive方案搭配征程6系列硬件,从智能车和自动驾驶算法演变的角度设计硬件架构,提出专门为端到端模型和数据驱动算法服务的新平台。
说明生态正成为智驾的壁垒和新护城河。
最后是对于大众以及其他国际OEM来说,与地平线合资合作已经不是秘密,而联合最近安徽金标大众强调的「自主权」... whaosoft aiot http://143ai.com
合资和自主的力量对比,后续可能变数更多。
One more thing
余凯和贝瑞德乘坐的ID.4,是地平线高阶智驾方案SuperDrive的工程版,现在店里卖的ID.4量产车是没有这样的高阶城区NOA能力的。
不过这也直接证明,迪斯当年主导推动的大众新能源革命是多么的前瞻:
基础电子电气架构,仍然能支持近10年后的高阶智能驾驶功能。
迪斯的遗产,目测大众还能享用3-5年。
至于后续嘛,何小鹏又给大众续上了:
#从物理仿真和世界模型中学习xx智能
本综述聚焦xx智能在机器人研究中的前沿进展,指出实现强大xx智能的关键在于物理模拟器与世界模型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部表征能力以支持预测规划与决策。
文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey,旨在为xxAI 系统的发展提供全面视角并明确未来挑战。
随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研究核心。xx智能强调通过与环境的物理交互实现感知、行动和认知,使机器人能基于物理世界反馈调整行为与认知,是通往通用智能的重要部分,其意义不止于物理任务执行,更通过感官输入、运动控制和认知处理的闭环整合,构成真正自主性和适应性的基础。
在智能机器人广泛部署于养老护理等现实场景的背景下,其在动态不确定环境中自主安全运行的能力至关重要,而建立科学合理的机器人智能分级系统需求迫切。尽管近期有相关评估方案、标准及综述,但缺乏整合智能认知、自主行为和社交交互维度的综合分级系统。为此,该工作提出智能机器人能力分级模型,包含从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0 到 IR-L4),涵盖自主性、任务处理能力等关键维度,为评估和指导智能机器人发展提供统一框架。
智能机器人的等级
等级标准
该标准根据以下方面对机器人进行分类:它们在各种环境中执行任务的能力、自主决策的深度、交互的复杂性以及伦理认知。涵盖以下核心维度:
- 机器人独立完成任务的能力,从完全依赖人类控制到完全自主。
- 机器人能够处理的任务难度,从简单的重复劳动到创新性问题解决。
- 机器人在动态或极端环境中工作的能力。
- 机器人理解、与人类社会互动并对社会情境做出反应的能力。
等级因素
机器人的智能水平基于以下五个因素进行分级。
- 自主性:该因素基于机器人在各种任务中自主决策的能力。
- 任务处理能力:该因素基于机器人能够执行的任务的复杂性。
- 环境适应性:该因素基于机器人在不同环境中的表现。
- 社会认知能力:该因素基于机器人在社会场景中表现出的智能水平。
分类等级
IR-L0:基本执行级别
- 核心特征:处于系统基础执行层,具备完全非智能、程序驱动的属性。
- 任务类型:专注于执行高度重复、机械化且确定性的任务,例如工业焊接、固定路径物料搬运等。
- 运行模式:采用 "低感知 - 高执行" 模式,完全依赖预定义程序指令或实时远程操作,缺乏环境感知、状态反馈及自主决策能力,形成 "命令输入 - 机械执行" 的单向闭环系统。
IR-L1:程序响应级别
- 核心特征:具备有限的基于规则的反应能力。
- 任务执行:可执行预定义任务序列,如清洁机器人、接待机器人的任务。
- 感知能力:借助红外、超声波、压力等基本传感器触发特定行为模式。
- 局限性:无法处理复杂或不可预见事件,仅能在规则明确的封闭任务环境中保持操作稳定性,体现 "有限感知 - 有限执行" 范式,是基本机器人智能的开端。
IR-L2:基本感知和适应级别
- 核心进步:引入初步环境意识与自主能力,是机器人智能的重大发展。
- 能力表现:能对环境变化做出基本响应,并在多种任务模式间转换。例如,服务机器人可根据语音命令执行 "送水""导航引导" 等不同任务,同时在路径执行中避开障碍物。
- 技术支撑:需集成摄像头、麦克风阵列、激光雷达等感知模块,以及有限状态机(FSM)或行为树等基本行为决策框架。
IR-L3:类人认知与协作级别
- 核心能力:可在复杂动态环境中自主决策,支持复杂多模式人机交互。
- 交互表现 :能推断用户意图并调整行为,在伦理约束下运行。例如,养老护理场景中,可通过分析语音模式、面部表情检测老年患者情绪变化,进而做出安慰动作或发出紧急警报。
机器人移动性、灵巧性和交互性
机器人移动性、灵巧性和交互性
相关机器人技术
- 模型预测控制(MPC):基于优化的方法,利用动态模型预测系统行为,适用于人形机器人这类高维系统,已实现双足机器人的实时控制与复杂动作。
- 全身控制(WBC):通过协调机器人所有关节和肢体,将运动目标转化为优化问题求解,结合强化学习等技术可实现更自然的全身运动控制。
- 强化学习(RL):通过与环境交互学习最优动作,适用于高维动态环境,已实现双足机器人动态行走等复杂行为。
- 模仿学习(IL):通过模仿人类演示学习任务,需解决数据获取与泛化问题,可结合运动捕捉数据实现自然步态。
- 视觉 - 语言 - 动作模型(VLA):集成视觉、语言与动作,通过预训练模型实现自然语言指令到机器人动作的映射,但存在未见过任务处理与实时性挑战。
机器人运动
- 腿部运动
1)非结构化环境适应:从早期位置控制到力控关节应用,结合传感器与学习方法,机器人可在崎岖地形、楼梯等复杂环境中稳定行走,如 Cassie 机器人通过动态控制器实现户外草地行走。
2)高动态运动:利用简化动态模型(如 SLIP、LIPM)与强化学习,实现奔跑、跳跃等动作,模仿学习可提升运动自然性。
- 跌倒保护与恢复
1)基于模型方法:模仿人类跌倒生物力学,通过姿势控制与柔顺策略减少损伤。
2)基于学习方法:通过课程学习与多接触行为模仿,实现机器人从不同姿势的跌倒恢复,如 HoST 方法使机器人在复杂环境中稳健站立。
机器人操作
- 单手操作任务
1)基于夹具操作:从预编程到基于学习的方法,实现杂乱环境抓取、可变形物体操作等,如 RT2 模型通过视觉 - 语言 - 动作映射处理复杂指令。
2)灵巧手操作:两阶段(生成抓取姿势 + 控制执行)与端到端方法结合,提升泛化能力,DexGraspVLA 实现零样本高成功率抓取。
- 双手操作任务:从任务分解到端到端学习,如 ALOHA 系列通过大规模演示数据实现双手机器人精细操作,未来向灵巧手协调扩展。
- 全身操作控制:结合大型预训练模型(LLM、VLM)与视觉演示,实现家庭任务(如清洁、整理)的全身协调,如 HumanPlus 系统通过单目摄像头学习复杂技能。
- 基础模型应用:分层方法(高级规划 + 低级执行)与端到端 VLA 模型结合,推动机器人操作的泛化与自主决策,如 π0 模型实现跨平台通用控制。
人机交互
- 认知协作:理解人类显式与隐式意图,通过 LLM 模拟人类认知状态,提升机器人在导航等任务中的语境理解能力。
- 物理可靠性:通过运动规划(PRM、RRT)与控制策略(阻抗控制)确保人机协作安全,结合模拟生成数据提升机器人动作适应性。
- 社会嵌入 :理解社会空间(个人空间)与行为(语言 / 非语言信号),需解决多模态感知与跨文化适应问题,推动机器人融入社会场景。
通用物理模拟器
主流模拟器
- Webots:由 Cyberbotics Ltd. 于 1998 年推出,提供机器人建模、编程和仿真的集成框架,2018 年开源,支持多种传感器和跨平台 API,但缺乏对可变形体和流体动力学的支持。
- Gazebo:2002 年由南加州大学开发的开源模拟器,以可扩展性和与机器人 middleware 的集成为特点,支持多种传感器和模块化插件系统,但在高级物理交互方面存在局限。
- MuJoCo:2012 年由华盛顿大学开发,后被谷歌 DeepMind 收购,专为关节系统的接触丰富动力学仿真设计,具有高精度物理计算和生物力学建模能力,但渲染功能有限。
- PyBullet:2017 年由 Bullet 物理引擎开发者推出,通过 Python 接口提供轻量级仿真平台,因开源和易用性在学术界广泛应用。
- CoppeliaSim:前身为 V-REP,支持分布式控制架构,教育版开源,适用于学术和教育场景。
- NVIDIA Isaac 系列:包括 Isaac Gym(2021 年推出,支持大规模 GPU 加速物理仿真)、Isaac Sim(集成 Omniverse 平台,支持高保真 LiDAR 仿真)和 Isaac Lab(基于 Isaac Sim 的模块化强化学习框架)。
- SAPIEN:2020 年由加州大学圣地亚哥分校等机构开发,用于复杂部件级交互物体的物理逼真建模,配套 ManiSkill 基准。
- Genesis:2024 年发布的通用物理仿真平台,统一多种物理求解器,支持生成式数据引擎和可微物理。
- Newton:2025 年由 NVIDIA、谷歌 DeepMind 和迪士尼研究院联合开发的开源物理引擎,支持刚体 / 软体动力学和可微物理。
模拟器的物理特性
该表格对比了主流模拟器在物理模拟能力上的差异,涵盖以下关键维度:
- 物理引擎:各模拟器底层使用的物理计算核心(如 MuJoCo 使用自研引擎,Isaac 系列基于 NVIDIA PhysX)。
- 特殊物理效果支持:包括吸力建模、随机外力模拟、可变形物体与软体接触的仿真能力,以及流体动力学和离散元方法(DEM)的支持情况。
- 可微物理:指模拟器是否支持梯度计算(如 MuJoCo、PyBullet 等通过特定模块实现),这对基于学习的控制算法优化至关重要。
关键发现:
- 高端模拟器(如 Isaac Sim、Genesis)在多物理场支持上更全面,而传统模拟器(如 Webots、Gazebo)在复杂物理交互(如流体、DEM)上存在局限。
- 可微物理能力主要在科研导向的模拟器(如 MuJoCo、PyBullet)中体现,工业级模拟器(如 Isaac 系列)暂未重点支持。
渲染能力
表格从以下角度评估模拟器的视觉渲染性能:
- 渲染引擎:底层图形渲染技术(如 OpenGL、Vulkan、Omniverse RTX)。
- 光线追踪:是否支持物理级光影效果(如全局光照、反射)。
- 基于物理的渲染(PBR):能否模拟真实材质的光学特性(如粗糙度、金属度)。
- 并行渲染:是否支持多环境 / 多相机的高效并行计算,这对大规模强化学习训练至关重要。
关键发现:
- NVIDIA 系模拟器(Isaac Sim/Lab)借助 Omniverse 平台,在光线追踪和 PBR 上表现突出,适合高保真视觉仿真。
- 轻量级模拟器(如 PyBullet、CoppeliaSim)渲染能力较弱,主要用于功能验证而非视觉逼真度。
传感器和关节组件类型
表格聚焦模拟器对机器人关键硬件的建模能力:
- 传感器类型:包括 IMU、力传感器、RGB 相机、LiDAR、GPS 等的仿真支持。
- 关节类型:覆盖机器人常用关节(浮动、固定、铰链、球形、棱柱形)及特殊关节(如螺旋关节)的动力学建模。
关键发现:
- 工业级模拟器(如 Gazebo、CoppeliaSim)对传感器和关节的支持更全面,适合复杂机器人系统开发。
- 专用模拟器(如 SAPIEN)在特定传感器(如 LiDAR)或关节类型上存在缺失,需结合其他工具补充。
讨论和未来展望
- 模拟器的优势:降低实验成本、保障安全、支持变量精确控制和实验重复。
- 面临的挑战:模型精度不足、系统复杂度高、依赖大量数据、存在过拟合风险。
- 未来方向 :发展世界模型,结合机器学习和人工智能,创建更全面灵活的建模框架,提升适应性和泛化能力,减少对海量数据集的依赖。
世界模型
世界模型的定义与演进
定义:世界模型是理解现实世界动态(包括物理和空间属性)的生成式 AI 模型。其灵感源于人类大脑对环境的内部建模能力,最早由 Ha 和 Schmidhuber 于 2018 年提出,通过压缩的生成模型模拟经验,推动无真实交互的强化学习。
技术演进:从早期基于循环网络的潜态建模(如 Dreamer 系列),到结合 Transformer 和扩散模型的高保真生成式模拟(如 Sora 、GAIA-2),世界模型已从 "预测工具" 发展为 "虚拟物理引擎"。
代表性架构分类
- 循环状态空间模型(RSSM)
1)核心:通过潜态空间(Latent Space)编码环境动态,利用循环网络(如 RNN)建模时序转移。
2)代表:Dreamer 系列,通过变分自编码器(VAE)将视觉输入压缩为潜态轨迹,实现 "想象式" 规划。例如,DreamerV3 通过统一架构在 150 + 任务中实现通用控制。
- 联合嵌入预测架构(JEPA)
1)核心:放弃像素级重建,以自监督方式学习抽象表征(如 V-JEPA),通过预测缺失内容的嵌入而非原始数据,提升语义理解能力。
2)优势:数据效率高,适合大规模预训练(如 100 万 + 小时视频),支持零样本规划。
- Transformer-based 模型
1)核心:用注意力机制替代循环结构,处理长时序依赖与多模态输入。
2)代表:Genie 通过 Transformer 建模潜态动态,支持交互式环境的长期预测;TransDreamer 将 Transformer 引入强化学习,提升复杂场景下的规划能力。
- 自回归生成模型
1)核心:将世界建模视为序列预测任务,通过 Transformer 生成 tokenized 视觉观测。
2)代表:GAIA-1 用 90 亿参数 Transformer 生成多模态驾驶场景,支持文本 / 动作条件控制;VideoPoet 通过语言模型驱动视频生成。
- 扩散生成模型
1)核心:通过迭代去噪过程捕捉数据分布,实现高保真物理动态模拟。
2)代表:Sora 作为视频生成模型,被称为 "世界模拟器",可预测物体物理交互;DriveDreamer 用扩散模型生成真实驾驶场景,支持动作条件下的多视图一致性。
核心角色与应用
- 神经模拟器(Neural Simulator)
1)功能:生成可控的高保真仿真数据,替代传统物理引擎。
2)案例:Cosmos 系列 通过扩散与自回归模型合成物理精确的 3D 视频,支持机器人训练的模拟到现实迁移;MagicDrive 通过 3D 几何控制生成街道场景,用于自动驾驶测试。
- 动态模型(Dynamic Model)
1)功能:学习环境动态,支持模型基强化学习(MBRL)的预测与规划。
2)案例:PlaNet 通过潜态动态模型实现像素级规划;ContextWM 用野生视频预训练世界模型,提升下游任务的样本效率。
- 奖励模型(Reward Model)
1)功能:通过预测轨迹的 "可预测性" 推断奖励,替代手工设计的奖励函数。
2)案例:VIPER 用视频预测模型的似然值作为奖励信号,在 DMC/Atari 等任务中实现专家级控制。
挑战与未来方向
- 关键挑战
1)高维与部分可观测性:处理摄像头 / LiDAR 等高维输入,以及环境状态的不完全感知。
2)因果推理缺失:多数模型停留在相关性学习,缺乏对物理因果(如 "刹车为何减速")的理解。
3)长时序依赖:预测误差随时间累积,需更高效的记忆架构(如 Transformer 的全局注意力)。
- 未来趋势
1)3D 结构化建模:通过 Occupancy Networks 实现物理空间的显式表示(如 OccSora、DriveWorld)。
2)多模态融合:整合视觉、语言、触觉数据,如 EnerVerse 通过 4D 高斯 splatting 融合动作与视觉。
3)轻量化与泛化 :开发硬件无关的动态编码(如 RoboTransfer),实现跨机器人平台的技能迁移。
智能体的世界模型
自动驾驶的世界模型
应用背景:传统自动驾驶架构(感知 - 预测 - 规划)在复杂场景中存在误差累积与泛化不足问题,世界模型通过模拟未来场景与物理动态,提升系统鲁棒性。
三大技术范式
- 神经模拟器(Neural Simulator)
- GAIA-2:通过扩散模型结合结构化条件(车辆动态、道路语义),生成多摄像头一致的高清视频,支持天气 / 光照可控的场景模拟。
- DriveDreamer4D:利用世界模型作为 "数据机器",合成具有时空一致性的 4D 轨迹视频,支持新型轨迹的视图合成。
- 目标:生成高保真驾驶场景,用于数据增强与安全验证。
- 代表:
- 动态模型(Dynamic Model)
- DriveWorld:通过 4D 预训练场景理解,结合动态记忆银行与静态场景传播,实现多摄像头视频的 4D 场景建模。
- GaussianWorld:将 3D occupancy 预测转化为 4D 高斯分布建模,推断场景演化与不确定性,提升复杂交通场景的预测鲁棒性。
- 目标:学习环境动态,支持感知、预测与规划。
- 代表:
- 奖励模型(Reward Model)
- Vista:利用世界模型的模拟能力评估轨迹质量,支持从高级意图到低级操作的动作可控性。
- Drive-WM:通过多视图轨迹探索与图像级奖励评估,实现 "假设 - 推理" 式安全规划。
- 目标:评估驾驶行为安全性,替代手工奖励函数。
- 代表:
技术趋势
- 架构演进:从自回归(如 GAIA-1)到扩散模型(如 DriveDreamer),再到混合架构(如 Epona 结合自回归与扩散),提升生成保真度与控制精度。
- 3D 空间建模:转向 4D occupancy 网格(如 OccSora),编码空间结构与时间动态,支持几何一致性与深度感知。
- 端到端集成:如 Doe-1 将驾驶视为 "下一个 token 生成",统一感知 - 预测 - 规划,实现基于语言模型的决策。
铰接式机器人的世界模型
应用背景:铰接式机器人(机械臂、人形机器人)需处理高维动作空间与物理交互,世界模型通过模拟物体动态与环境反馈,提升操作泛化能力。
三大技术范式
- 神经模拟器(Neural Simulator)
- Cosmos-Predict:通过扩散模型合成 3D 视频,支持分割图 / 深度图等结构化输入,用于机器人感知训练。
- DreamGen:通过四阶段流水线生成神经轨迹,结合视频世界模型合成逼真数据,实现零样本策略泛化。
- 目标:生成物理逼真的操作场景,支持模拟到现实迁移。
- 代表:
- 动态模型(Dynamic Model)
- Dreamer 系列:通过 RSSM 学习视觉输入的潜态动态,实现基于 "想象" 的动作规划,如 DayDreamer 在物理机器人上的应用。
- WMP:无需特权信息,仅通过世界模型预测训练 locomotion 策略,实现复杂地形适应性。
- 目标:学习机器人 - 环境动态,支持模型基强化学习。
- 代表:
- 奖励模型(Reward Model)
- VIPER:在专家视频上训练自回归模型,用预测似然作为奖励,在 DMC/RLBench 等任务中实现专家级控制。
- 目标:通过轨迹预测似然推断奖励,减少手工设计成本。
- 代表:
技术趋势
- 触觉 - 视觉融合:如 DreMa 结合高斯 splatting 与物理仿真,显式建模接触力与物体变形,提升灵巧操作精度。
- 跨硬件泛化:如 RoboTransfer 通过几何一致的视频扩散,实现不同机器人平台的策略迁移,减少硬件特定训练需求。
- 分层任务规划:如 HWM 通过 Masked Transformer 预测动作条件下的第一人称观测,支持长时序任务的分层控制。
挑战与未来展望
- 共性挑战
- 高维状态与部分观测:处理摄像头 / 传感器的高维输入,以及环境状态的不完全感知(如遮挡、动态物体)。
- 因果推理缺失:多数模型依赖相关关系,缺乏对物理因果(如 "推箱子为何移动")的理解,限制泛化能力。
- 实时性与计算成本:高保真生成模型(如扩散模型)的采样速度较慢,难以满足实时控制需求。
- 未来方向
- 3D 结构化世界模型:通过 Occupancy Networks 等实现物理空间的显式表示(如 Drive-OccWorld),支持几何推理与碰撞预测。
- 多模态基础模型:融合视觉、语言、触觉数据(如 EnerVerse-AC),实现 "指令理解 - 场景模拟 - 动作生成" 的端到端流程。
- 轻量化与高效推理:开发参数高效的模型架构(如 HWM 通过参数共享减少模型大小),支持边缘设备部署。
结论
xx智能技术框架
- **机器人能力分级(IR-L0 至 IR-L4)**从机械执行到自主社交智能,涵盖自主性、任务处理等维度。如 IR-L3 可推断人类意图(如养老护理情绪识别),IR-L4 为类人认知终极目标。
- 物理模拟器与世界模型互补性
- 模拟器(如 Isaac Sim):GPU 加速高保真仿真,解决数据收集成本与安全问题。
- 世界模型(如扩散模型):通过内部表征实现预测规划,弥合模拟与现实差距(如 Sora 模拟物理动态)。
关键技术进展
- 机器人运动与操作
- 双足机器人:力控关节 + 强化学习,适应复杂地形(如 Cassie 穿越草地)。
- 双手操作:大规模演示数据 + 基础模型(如 π0),实现家庭任务泛化。
- 人机交互与社会嵌入
- 认知协作:LLM 模拟人类认知(如 L3mvn 优化导航策略)。
- 物理可靠性:运动规划(如 RRT*)+ 仿真数据,保障人机协作安全(如 MobileH2R 物体交接)。
未来方向与挑战
- 核心挑战
- 高维感知:处理摄像头 / LiDAR 输入,升级物理因果建模(如理解 "刹车 - 减速" 原理)。
- 实时性:提升扩散模型等生成效率,适配自动驾驶场景。
- 前沿方向
- 3D 结构化模型:Occupancy Networks 实现物理空间显式表示(如 OccSora 的 4D 生成)。
- 多模态融合:整合视觉、语言、触觉(如 EnerVerse),构建端到端智能体。
- 伦理安全:开发动态伦理系统,确保医疗、救援等场景合规。
技术落地与影响
- 工业应用:自动驾驶通过 GAIA-2 生成边缘场景,提升极端天气安全性。
- 服务机器人:人形机器人借助 Cosmos 模拟数据,加速家庭护理部署。
- 科学发现:可微物理模拟器(如 Genesis)支持新材料虚拟设计,缩短研发周期。
参考
1\] A Survey: Learning Embodied Intelligence from Physical Simulators and World Models ##### #Shape of Motion 谷歌\&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%! 想象一下,用手机随便拍一段视频,就能自动重建出整个动态场景的3D模型,还能追踪每个物体的运动轨迹?这听起来像是科幻电影里的情节,但UC Berkeley和Google Research的研究团队刚刚把这个梦想变成了现实! 论文中的方法可以重建动态场景并渲染出不同时间点的视图: 这项名为"Shape of Motion"的技术,能从单目视频中重建出完整的4D场景(3D空间+时间维度)。最神奇的是,它不仅能看到物体的运动轨迹,还能从任意视角渲染出动态场景! 系统整体架构图展示了方法的创新之处: 这项技术到底有多厉害?它能同时做到:1) 实时新视角合成;2) 全局一致的3D追踪;3) 处理复杂的动态场景。这可能会彻底改变影视特效、游戏开发、自动驾驶等多个行业的工作流程! **原论文信息如下:** **论文标题:** **Shape of Motion: 4D Reconstruction from a Single Video** **发表日期:** **2024年07月** **作者:** **Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa** **发表单位:** **UC Berkeley, Google Research** **原文链接:** [https://arxiv.org/pdf/2407.13764.pdf](https://arxiv.org/pdf/2407.13764.pdf "https://arxiv.org/pdf/2407.13764.pdf") **项目链接:**shape-of-motion.github.io 引言:单目视频的动态场景重建有多难? 想象一下,用手机随便拍一段视频,就能自动重建出整个动态场景的3D模型,还能追踪每个物体的运动轨迹?这听起来像是科幻电影里的情节,但UC Berkeley和Google Research的研究团队刚刚把这个梦想变成了现实! 传统的动态场景重建方法要么依赖多视角视频,要么需要深度传感器,要么只能在准静态场景下工作。而单目视频的动态场景重建,就像是在黑暗中用一只手摸大象------信息极度匮乏,问题高度病态。 ++SE(3)++(Special Euclidean group in 3D space,三维特殊欧几里得群)是描述3D空间中刚体运动的数学表示,包括旋转和平移。而本文提出的方法巧妙地利用了SE(3)运动基底来表示场景运动。 核心贡献:Shape of Motion------4D重建新方法 这项名为"Shape of Motion"的技术,能从单目视频中重建出完整的4D场景(3D空间+时间维度)。最神奇的是,它不仅能看到物体的运动轨迹,还能从任意视角渲染出动态场景! 本方法的两大核心创新点: **1. 低维运动表示**:利用一组紧凑的SE(3)运动基底来表示场景运动,每个点的运动都是这些基底的线性组合 **2. 数据驱动先验整合**:有效整合单目深度图和长距离2D轨迹等噪声监督信号,形成全局一致的动态场景表示 技术解析:3D高斯点与运动基底的秘密 本方法采用3D高斯点(3D Gaussians)作为场景表示的基本单元。与传统的NeRF等隐式表示不同,3D高斯点是显式的、可微的场景表示,能够实现实时渲染。 每个3D高斯点在规范帧t₀中的参数定义为g₀≡(μ₀,R₀,s,o,c),其中: **μ₀**:规范帧中的3D均值 **R₀**:规范帧中的方向 **s**:尺度 **o**:不透明度 **c**:颜色 这些3D高斯点会随时间进行刚体变换,其运动轨迹通过一组共享的SE(3)运动基底来表示。这种表示方法既保持了灵活性,又通过共享基底实现了运动规律的低维约束。 动态场景表示的秘密武器 为了克服单目视频重建的欠约束问题,本方法巧妙地利用了多种数据驱动先验: **单目深度估计**:使用现成的Depth Anything模型获取每帧的深度图 **长距离2D轨迹**:使用TAPIR模型获取前景像素的长距离2D轨迹 **运动物体分割**:使用Track-Anything获取每帧的运动物体掩码 这些先验信息虽然各自都有噪声,但通过精心设计的优化框架,能够被整合成一个全局一致的动态场景表示。这就像是用多个不准确的指南针,最终找到正确的北方! 优化过程全解析 优化过程就像拼装精密机械表⚙️------每个零件都要完美契合!方法首先获取三种关键输入: **运动物体掩码**:用Track-Anything标注移动区域(只需用户点几下) **单目深度图**:Depth Anything提供每帧深度线索 **2D轨迹**:TAPIR生成像素级长距离运动轨迹 初始化阶段选择包含最多3D轨迹的帧作为规范帧,动态高斯的运动基底通过加权Procrustes对齐算法初始化: 图:运动基底参数化公式,其中𝐓表示SE(3)变换,𝐰为权重系数 训练时采用双管齐下的损失函数: **重建损失**:确保每帧渲染与输入一致 图:重建损失函数,包含RGB、深度和掩码约束 **运动约束**:通过2D轨迹和刚性损失保持运动一致性 图:刚性损失确保局部结构在运动中保持稳定 硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps------**实时性**完胜传统NeRF方法! 实验结果:效果有多强? 在iPhone数据集上的结果堪称降维打击🚀!看这组对比数据: \*表格超出部分左右可以滑动 |--------------------------|-----------|----------|----------|----------|----------|-----------|----------| | Method | 3D EPE↓ | 05↑D↑ | 10↑D↑ | AJ↑ | avg↑OA↑ | PSNR↑ | SSIM↑ | | T-NeRF \[21\] | - | - | - | - | - | 15.60 | 0.55 | | HyperNeRF \[65\] | 0.182 | 28.4 | 45.8 | 10.1 | 19.3 | 15.99 | 0.51 | | DynIBaR \[52\] | 0.252 | 11.4 | 24.6 | 5.4 | 8.7 | 13.41 | 0.48 | | Deformable-3D-GS \[108\] | 0.151 | 33.4 | 55.3 | 14.0 | 20.9 | 11.92 | 0.49 | | CoTracker+DA | 0.202 | 34.3 | 57.9 | 24.1 | 33.9 | - | - | | TAPIR+DA | 0.114 | 38.1 | 63.2 | 27.8 | 41.5 | - | - | | **Ours** | **0.082** | **43.0** | **73.3** | **34.4** | **47.0** | **16.72** | **0.63** | 表1:iPhone数据集量化对比,本方法在3D追踪、2D追踪和新视角合成全面领先 **73.3%** 的3D追踪准确率(10cm阈值)比第二名高出整整10个百分点,**47%**的2D追踪准确率更是碾压级表现!新视角合成的PSNR指标达到16.72,清晰度肉眼可见提升👇 图4:新视角合成效果对比(左:训练视角,绿框为不可见区域) 运动轨迹可视化更展现惊人优势------传统方法在旋转风车场景完全崩坏,而本方法轨迹平滑精准: 图3:3D运动轨迹对比(仅展示50帧片段) 在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21%!运动系数PCA可视化直接暴露算法黑箱------不同颜色对应不同刚体运动组件: 图6:运动系数的前三PCA分量(不同颜色代表不同刚体组件) 消融实验实锤关键技术价值: \*表格超出部分左右可以滑动 |----------------------|-------|-------|-------| | Ablation | EPE↓ | 05↑D↑ | 10↑D↑ | | Full Model | 0.082 | 43.0 | 73.3 | | Transl.Bases | 0.093 | 42.3 | 69.9 | | Per-Gaussian Transl. | 0.087 | 41.2 | 69.2 | | No SE(3) Init. | 0.111 | 39.3 | 65.7 | | No 2D Tracks | 0.141 | 30.4 | 57.8 | 表3:消融实验结果(数值越低/越高越好) 移除SE(3)运动基底导致性能下降15%,而去掉2D轨迹监督直接腰斩精度------**证明双轨监督机制的必要性**! 讨论与未来展望 当前方法存在四大**阿喀琉斯之踵**: **⏱️ 耗时优化**:仍需每场景2小时训练,难实时流式处理 **🔄 视角局限**:大视角变化时缺失生成能力 **📷 相机依赖**:纹理缺失场景的位姿估计可能失败 **✋ 人工干预**:需用户标注运动物体掩码 未来突破方向已然清晰: **🚀 前馈网络**:开发端到端模型直接输出4D重建 **🧠 生成先验**:融入扩散模型处理大视角变化 **🤖 全自动分割**:用SAM等模型替代人工标注 论文投稿后已有4篇相关研究涌现(如MoSCA、ModGS等),但都采用类似的优化框架。谁能率先突破实时4D重建,谁将主宰下一代视觉算法! 结论:Shape of Motion的无限可能 这项研究突破了单目动态重建的**三重边界**: **🌐 空间维度**:首次实现全序列3D运动轨迹重建 **⏳ 时间跨度**:支持10秒以上的长时运动追踪 **🎭 场景复杂度**:处理多刚体运动的动态场景 当AR眼镜能实时重建运动物体轨迹,当自动驾驶系统精准预测行人运动路径,当电影特效摆脱昂贵的动捕设备------本文会记得这项研究点燃了4D视觉的革命火炬🔥 ##### #VLM-世界模型-端到端 **视觉大语言模型**综述汇总 * 智能交通和自动驾驶中的 LLM:https://github.com/ge25nab/Awesome-VLM-AD-ITS * AIGC 和 LLM:https://github.com/coderonion/awesome-llm-and-aigc * 视觉语言模型综述:https://github.com/jingyi0000/VLM_survey * 用于 CLIP 等视觉语言模型的出色提示 / 适配器学习方法:https://github.com/zhengli97/Awesome-Prompt-Adapter-Learning-for-VLMs * LLM/VLM 推理论文列表,并附有代码:https://github.com/DefTruth/Awesome-LLM-Inference * 大型模型安全、安保和隐私的阅读清单(包括 Awesome LLM security、safety 等):https://github.com/ThuCCSLab/Awesome-LM-SSP * 关于单 / 多智能体、机器人、llm/vlm/mla、科学发现等的知识库:https://github.com/weleen/awesome-agent * 关于 Embodied AI 和相关研究 / 行业驱动资源的精选论文列表:https://github.com/haoranD/Awesome-Embodied-AI * 一份精心策划的推理策略和算法列表,可提高视觉语言模型(VLM)的性能:https://github.com/Patchwork53/awesome-vlm-inference-strategies * 著名的视觉语言模型及其架构:https://github.com/gokayfem/awesome-vlm-architectures 基础理论 预训练 * \[arxiv 2024\] RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness * \[CVPR 2024\] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback * \[CVPR 2024\] Do Vision and Language Encoders Represent the World Similarly? * \[CVPR 2024\] Efficient Vision-Language Pre-training by Cluster Masking * \[CVPR 2024\] Non-autoregressive Sequence-to-Sequence Vision-Language Models * \[CVPR 2024\] VTamin: Designing Scalable Vision Models in the Vision-Language Era * \[CVPR 2024\] Iterated Scoring Improves Compositionality in Large Vision-Language Models * \[CVPR 2024\] FairCLIP: Harnessing Fairness in Vision-Language Learning * \[CVPR 2024\] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks * \[CVPR 2024\] CVLA: On Pre-training for Visual Language Models * \[CVPR 2024\] Generative Region-Language Pretraining for Open-Ended Object Detection * \[CVPR 2024\] Enhancing Vision-Language Pre-training with Rich Supervisions * \[ICLR 2024\] Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization * \[ICLR 2024\] MIMIC: Empowering Vision-language Model with Multi-Modal in-Context Learning * \[ICLR 2024\] Retrieval-Enhanced Contrastive Vision-Text Models 迁移学习方法 * \[NeurIPS 2024\] Historical Test-time Prompt Tuning for Vision Foundation Models * \[NeurIPS 2024\] AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation * \[IJCV 2024\] Progressive Visual Prompt Learning with Contrastive Feature Re-formation * \[ECCV 2024\] CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts * \[ECCV 2024\] FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance * \[ECCV 2024\] GalOP: Learning Global and Local Prompts for Vision-Language Models * \[ECCV 2024\] Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models * \[CVPR 2024\] Towards Better Vision-Inspired Vision-Language Models * \[CVPR 2024\] One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models * \[CVPR 2024\] Any-Shot Prompting for Generalization over Distributions * \[CVPR 2024\] A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models * \[CVPR 2024\] Anchor-based Robust Finetuning of Vision-Language Models * \[CVPR 2024\] Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners * \[CVPR 2024\] Visual In-Context Prompting * \[CVPR 2024\] TCP: Textual-based Class-aware Prompt Tuning for Visual-Language Model * \[CVPR 2024\] Efficient Test-Time Adaptation of Vision-Language Models * \[CVPR 2024\] Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models 知识蒸馏(检测\&分割\&多任务) * \[NeurIPS 2024\] Open-Vocabulary Object Detection via Language Hierarchy * \[CVPR 2024\] RegionGPT: Towards Region Understanding Vision Language Model * \[ICLR 2024\] LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors * \[ICLR 2024\] Ins-DetCLIP: Aligning Detection Model to Follow Human-Language Instruction * \[ICLR 2024\] CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction * \[ICLR 2024\] FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action Recognition * \[ICLR 2024\] AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection * \[CVPR 2023\] EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata**** **世界模型** * HERMES: A Unified Self - Driving World Model for Simutaneous 3D Scene Understanding and Generation 统一的驾驶世界模型 ------HERMES: 无缝整合了 3D 场景理解和未来场景演化 (生成) * A Survey of World Models for Autonomous Driving 2025 年最新,自动驾驶中的世界模型全面综述 * DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT * Diffusion World Model 普林斯顿大学提出扩散世界模型 * DrivingGPT: Unifying Driving World Modeling and Planning with Multi - modal Autoregressive Transformers DrivingGPT: 统一驾驶世界建模和规划 * Physical Informed Driving World Model 驾驶视频生成质量最新 SOTA! DrivePhysica: 一个创新符合物理原理的驾驶世界模型 * Understanding World or Predicting Future? A Comprehensive Survey of World Models 了解世界或预测未来?世界模型全面综述 * Navigation World Models Meta 最新研究!导航世界模型(Navigation World Model, NWM),一种可控的视频生成模型,能够根据过去的观察和导航动作预测未来的视觉观测 * InfinityDrive: Breaking Time Limits in Driving World Models 第一个具有卓越泛化能力的驾驶世界模型:InfinityDrive * Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey 简介:探索自动驾驶中视频生成与世界模型之间的相互作用:一项调查 * DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation 首个利用视频生成模型改善驾驶场景 4D 重建的方法!DriveDreamer4D:利用世界模型先验知识增强了 4D 驾驶场景的表示 * Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving 驾驶在占用世界:通过自动驾驶的世界模型进行视觉为中心的 4D 占用预测和规划 * Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Vista:一个具有高保真度和多功能可控性的可泛化驾驶世界模型! * Probing Multimodal LLMs as World Models for Driving 探索多模态 LLM 作为世界驾驶模型! * DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving 自动驾驶各种任务性能全面提升!DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解 * Prospective Role of Foundation Models in Advancing Autonomous Vehicles 大规模基础模型在自动驾驶中的应用和趋势 * DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation DriveDreamer-2:第一个能够生成定制驾驶视频的世界模型 * World Models for Autonomous Driving: An Initial Survey 自动驾驶中的世界模型**** **扩散模型** 综述汇总 * 关于扩散模型的资源和论文集 [https://github.com/diff-usion/Awesome-Diffusion-Models](https://github.com/diff-usion/Awesome-Diffusion-Models "https://github.com/diff-usion/Awesome-Diffusion-Models") * 视频生成、编辑、恢复、理解等最新传播模型列表 [https://github.com/showlab/Awesome-Video-Diffusion](https://github.com/showlab/Awesome-Video-Diffusion "https://github.com/showlab/Awesome-Video-Diffusion") * 基于扩散的图像处理综述,包括恢复、增强、编码、质量评估 [https://github.com/lixinustc/Awesome-diffusion-model-for-image-processing](https://github.com/lixinustc/Awesome-diffusion-model-for-image-processing "https://github.com/lixinustc/Awesome-diffusion-model-for-image-processing") * 图扩散生成工作集合,包括论文、代码和数据集 [https://github.com/yuntaoshou/Graph-Diffusion-Models-A-Comprehensive-Survey-of-Methods-and-Applications](https://github.com/yuntaoshou/Graph-Diffusion-Models-A-Comprehensive-Survey-of-Methods-and-Applications "https://github.com/yuntaoshou/Graph-Diffusion-Models-A-Comprehensive-Survey-of-Methods-and-Applications") * Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices \[Paper
- Diffusion Models in 3D Vision: A Survey [Paper]
- Conditional Image Synthesis with Diffusion Models: A Survey [Paper]
- Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey [Paper]
- A Survey on Diffusion Models for Recommender Systems [Paper]
- Diffusion-Based Visual Art Creation: A Survey and New Perspectives [Paper]
- Replication in Visual Diffusion Models: A Survey and Outlook [Paper]
- Diffusion Model-Based Video Editing: A Survey [Paper]
- Diffusion Models and Representation Learning: A Survey [Paper]
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [Paper]
- Diffusion Models in Low-Level Vision: A Survey [Paper]
- Video Diffusion Models: A Survey [Paper]
- A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [Paper]
- Controllable Generation with Text-to-Image Diffusion Models: A Survey [Paper]
- Diffusion Model-Based Image Editing: A Survey [Paper]
- Diffusion Models, Image Super-Resolution And Everything: A Survey [Paper]
- A Survey on Video Diffusion Models [Paper]
- A Survey of Diffusion Models in Natural Language Processing [Paper]
端到端自动驾驶
主要介绍端到端自动驾驶研究论文集,持续跟踪 E2E 驾驶最新更新
- 链接1:https://github.com/opendilab/awesome-end-to-end-autonomous-driving#Overview-of-End-to-End-Driving-Method
- 链接2:https://github.com/Pranav-chib/Recent-Advancements-in-End-to-End-Autonomous-Driving-using-Deep-Learning
-
CVPR 2024\] Foundation Models for Autonomous Systems
-
CVPR 2023\] End-to-End Autonomous Driving: Perception, Prediction, Planning and Simulation
-
NeurIPS 2022\] Machine Learning for Autonomous Driving
-
ICRA 2022\] Fresh Perspectives on the Future of Autonomous Driving Workshop
-
NeurIPS 2020\] Machine Learning for Autonomous Driving
#World4Drive
告别标注!中科院&理想:端到端双SOTA,超越Hydra-MDP
端到端在当下可谓是炙手可热,它将感知和规划集成到一个统一的、完全可微的网络中。不过,因为物理世界的复杂性和规划意图的不确定性,基于对物理场景的整体理解,也就是空间、语义和时间信息的理解,能够进行多模态运动规划,也是一个比较有挑战性的工作。
为了增强对场景的理解,现有的端到端方法探索了多种场景表示,包括以BEV为中心的表示、基于向量的表示等等。一些工作利用多模态大型语言模型来增强场景理解能力。除此之外像 VADv2 和 Hydra-MDP 这样的方法通过概率规划建模驾驶意图。但是!这些方法通常需要感知标注,来做一些辅助训练,比如3D 边界框的标注,这大大限制了这些工作的可扩展性。
最近,LAW 提出了一种潜在世界模型,该模型从原始图像中构建单模态潜在特征,并通过时间自监督学习获取场景表示,从而减少了对感知标注的依赖。然而,从图像中提取单模态潜在特征难以捕捉物理世界的空间语义信息和多模态驾驶意图,导致训练收敛速度慢且性能欠佳。为了解决这些关键问题,作者提出了 World4Drive ,这是一个端到端框架,它整合了多模态驾驶意图与潜在世界模型,以实现合理规划。这是通过潜意识地模拟在不同驾驶意图下物理世界如何演变来实现的,这与人类驾驶员的决策过程非常相似。给定多视图图像和轨迹词汇表输入,World4Drive 通过其驾驶世界编码模块提取驾驶意图和世界潜在表示。具体来说,驾驶世界编码模块包含两个关键组件:物理潜在编码器 和意图编码器。物理潜在编码器包括一个上下文编码器,该编码器利用深度估计模型和视觉语言模型的空间和语义先验,以及一个时间模块,聚合时间信息来构建富含物理场景上下文的世界潜在表示。同时,意图编码器从预定义的轨迹词汇表中提取多模态驾驶意图特征,能够全面表示可能的驾驶行为。之后,World4Drive 根据多模态驾驶意图预测未来的潜在表示,并提出了一个世界模型选择器来选择最合理的一个,用于与实际世界潜在表示进行自监督对齐训练。在推理过程中,作者充分利用 World4Drive 的潜在世界模型来评估和排名多模态轨迹候选方案,从而在复杂驾驶场景中指导自动驾驶车辆的规划过程。World4Drive 在 nuScenes 和 NavSim 基准测试中实现了无需感知标注的端到端规划性能,并且与先进的基于感知的模型相当。
作者的主要贡献总结如下:
- 受人类驾驶员决策过程的启发,作者提出了一个意图感知的潜在世界模型,创新性地使用世界模型在不同意图下生成和评估多模态轨迹。
- 为了增强世界模型对物理世界的理解而不依赖感知标注,作者设计了一个新颖的驾驶世界编码模块,该模块利用视觉基础模型的先验知识来提取驾驶环境的物理潜在表示。
- 作者的方法在 nuScenes 和 NavSim 基准测试中实现了无需感知标注的端到端规划性能,并显著加快了收敛速度。

相关工作 端到端自动驾驶
近年来,随着以鸟瞰图(BEV)为中心、基于向量和以稀疏信息为中心的场景表示技术的发展,基于视觉的端到端自动驾驶受到了越来越多的关注。如 UniAD、VAD 和 SparseDrive 等模型探索了这些多样化的表示方法,建立了包括感知、预测和规划在内的端到端架构。GenAD 利用生成模型来生成轨迹,而一些方法则实现了并行化的端到端结构。为了考虑规划中的意图不确定性,VADv2 和 Hydra-MDP 通过概率规划来建模驾驶意图。DiffusionDrive 和 GoalFlow 探索了基于扩散模型的端到端方法。随着大型语言模型(LLMs)的演变,几种方法通过语言模型增强场景信息。例如,VLP 通过对比学习将语言理解融入场景信息中。DriveVLM 构建了一个双系统,将视觉 - 语言模型的能力整合到决策空间中。TOKEN 利用大型语言模型来增强对象级别的感知,提高在长尾场景中的规划能力。然而,这些方法通常需要大量且昂贵的感知注释,这限制了它们的可扩展性。
自动驾驶世界模型
自动驾驶中的世界模型主要目的是预测在不同动作下场景的演变。这些模型包括基于图像的视频生成、基于点云和占用网格等表示的 3D 世界模型,以及基于潜在特征的未来世界生成。基于图像的视频生成包括使用扩散模型的驾驶视频方法,如 DriveDreamer、Vista 和 Drive-WM,以及基于自回归模型的驾驶视频生成方法,如 DriveWorld 和 GAIA。3D 世界模型包括基于点云的世界模型和基于占用的世界模型。这些模型在 3D 空间中构建模型,以更好地捕捉 3D 场景的动态变化。最近,VaVAM 和 LAW 等方法利用视频生成技术,通过自监督学习来学习场景表示,消除了对感知标注的依赖。特别是,LAW 提出了一种潜在世界模型,通过自监督学习预测单一未来场景潜在特征,实现了端到端规划的最先进性能。然而,从原始图像中构建单模态潜在特征往往难以捕捉空间 - 语义场景信息和多模态驾驶意图的不确定性,导致性能欠佳。
模型及方法
驾驶世界编码
作者设计的模型见图2所示,在驾驶世界编码模块中,作者引入了:
意图编码器(Intention Encoder) :以词汇表为输入提取驾驶意图;
物理潜在编码器(Physical Latent Encoder):利用视觉语言模型和度量深度估计模型提取具有空间、语义和时间上下文感知的世界潜在表征。

意图编码器
给定随机初始化的自我查询(ego query) 和轨迹词汇表 输入,作者首先在 的端点上采用 k-means 聚类算法获得意图点 。其中, 表示轨迹词汇表中的轨迹数量,3 表示三种指令类型(例如左转、右转、直行), 表示每种指令类型的意图数量, 表示每条轨迹中的路径点数量。然后,作者获得带有正弦位置编码的意图查询 。最后,作者利用一个自注意力层获得意图感知的多模态规划查询 。形式化表示为:
默认设置 ,。

物理世界潜在编码模块
作者提出物理世界潜在编码模块 ,用于提取对3D物理世界具有全局理解(即空间和语义感知能力)的世界潜在表征。该模块由上下文编码器 (用于融合空间与语义先验)和时序聚合模块 (增强时序上下文)组成。
上下文编码器
给定时间步t的多视角图像输入 ,作者首先通过图像骨干网络提取对应图像特征 (D为特征维度,M代表相机视角数量)。先前工作LAW直接将相机特征作为世界潜在表征,缺乏对驾驶场景的空间和语义理解。为解决这个问题,作者通过开放词汇语义监督和3D几何感知位置编码引入空间-语义先验。
语义理解
作者采用视觉语言模型Grouded-SAM生成伪语义标签。给定目标物体提示词,通过Grouded-SAM模型获得2D边界框及对应语义掩码 :
仅保留高置信度标签以减少错误标注。最终通过交叉熵损失 增强潜在表征的语义理解能力。
3D空间编码
该组件旨在为模型提供物理世界中的精确位置信息。受PETR启发,作者通过生成3D网格为每个像素提供不同的3D位置编码。不同的是,作者为每个像素提供尺度感知深度来表示3D空间,为端到端规划提供精准空间理解。具体实现:
- 使用度量深度模型估计多视角深度图
- 通过深度图和相机内参矩阵,获得每个像素在自车坐标系中的3D位置
- 生成3D位置图
- 使用正弦位置编码处理3D坐标,通过可学习MLP获得位置嵌入 :
其中SPE(·)表示正弦位置编码。最终将位置嵌入 与图像特征 相加,得到语义-空间感知的视觉特征 。
时序聚合模块
不同于前人工作使用随机初始化查询获取潜在表征,作者通过时序聚合模块获得富含时序上下文的潜在表征。具体保留前一时刻 的视觉特征 ,通过交叉注意力机制将历史信息聚合到当前视觉特征中,得到世界潜在表征 :
该模块通过融合空间、语义和时序信息,使世界潜在表征能够全面理解动态驾驶环境------这对"想象未来世界"至关重要。
基于意图感知世界模型的规划
本节提出意图感知世界模型,用于:
- 根据多模态驾驶意图预测未来世界的潜在表征
- 通过世界模型选择器对多模态规划轨迹进行评分。
意图感知世界模型预测器
动作编码
给定意图感知的多模态规划查询 ,首先通过交叉注意力层将场景上下文聚合到 中,再通过MLP层生成多模态轨迹 :
最后通过动作编码器(MLP层)获取意图感知的动作令牌 (K为意图数量)。
意图感知世界模型预测
作者的目标是预测遵循不同驾驶意图动作对应的未来世界潜在状态 (n为时间间隔)。与先前工作不同,作者:
- 沿通道维度拼接动作令牌A与世界潜在表征L
- 随机初始化可学习查询
- 采用多层交叉注意力作为预测器:
默认设置 。
世界模型选择器
作者提出世界模型选择器模块,通过潜在世界模型评估K种不同意图下的轨迹,并从中选择合理轨迹。架构细节见图4:

具体流程:
- 给定预测的意图感知未来潜在表征 和真实未来潜在表征
- 计算每个模态的预测潜在表征与真实潜在表征间的特征距离
- 选择距离最小的模态作为最终选定模态(假设其索引为j)
- 对应潜在距离作为重构损失 用于优化
- 对应轨迹 作为最终规划轨迹
同时,作者采用分类网络作为ScoreNet ,预测K个模态对应的分数 :
使用分数S与选定模态索引j之间的焦点损失优化世界模型评分网络。
关键说明:
- 推理阶段直接选择世界模型最高分对应的轨迹作为最终输出
- 采用MSE损失计算潜在距离
训练损失
遵循先前工作,作者应用 损失 ,用专家轨迹 指导最终规划轨迹 。World4Drive 是端到端可训练的。因此,端到端训练的最终损失为:
默认设置 。
实验及结论
基准测试
开环 nuScenes 基准测试
作者采用位移误差(L2)和碰撞率(CR)作为评估指标来评估预测轨迹。
闭环 NavSim 基准测试
模型性能通过闭环 PDM 得分(PDMS)进行评估,这些得分基于五个关键因素计算得出:无责任碰撞(NC)、可行驶区域合规性(DAC)、碰撞前时间(TTC)、舒适性(Comf.)和自身进度(EP)。
主要结果
如表 1 所示,作者将作者提出的框架与几种最先进(SOTA)的方法进行了比较。表格中蓝底方法需要手动感知标注,而红底方法在训练和推理过程中不需要手动感知标注。World4Drive 在无需感知标注的方法中实现了最先进的性能,与基线相比,L2 误差降低了 18.0%,碰撞率降低了 46.7%。此外,World4Drive 在所有方法中实现了最低的碰撞率。与基于感知的最先进的方法 LAW 相比,作者的方法在 L2 误差上仅适度增加了不到 2%,同时显著提高了安全指标。

如表 2 所示,World4Drive 在闭环指标 PDMS 上也实现了具有竞争力的性能。与基线相比,作者的方法在碰撞前时间(TTC)和可行驶区域合规性(DAC)指标上显示出显著改进。这些指标专门评估自动驾驶车辆的空间感知和对可行驶区域的理解。结果表明,整合视觉基础模型先验显著增强了模型对物理世界的综合理解。此外,作者的闭环指标超越了其他需要感知标注的方法,除了 DiffusionDrive。
消融研究
各个组件的有效性
作者评估了作者方法中每个组件的有效性。详细结果如表 3 所示。第 1 行展示了作者基线 LAW 的结果,该基线仅具有单模态世界模型。比较第 1 行和第 2 行,作者观察到,纳入车辆意图显著降低了 L2 误差和碰撞率 。此外,第 1 行和第 4 行的比较表明,当整合视觉基础模型和视觉语言模型的先验时,规划性能显著提高,突出了对物理世界全面理解的重要性。为了探索不同感知组件的贡献,作者进行了更详细的分析。比较第 2 行和第 3 行,作者发现引入空间先验增强了位置感知,从而提高了轨迹拟合能力 。同样,第 3 行和第 6 行的比较表明,语义先验显著降低了碰撞率 ,表明对障碍物的理解更好。最后,作者研究了将意图与世界建模结合的必要性。第 4 行和第 6 行的比较表明,添加意图建模显著提高了规划质量 ,因为意图提供了多种规划可能性,使模型能够选择更安全的轨迹。然而,第 5 行和第 6 行的比较揭示了仅有意图而不进行世界建模实际上会导致规划性能下降。这证实了世界模型在评估和排名多模态意图方面的关键作用。

不同驾驶条件下的性能
作者分析了在不同驾驶条件下的规划性能,包括不同的天气条件、照明设置和驾驶操作。按照官方的 nuScenes 场景描述,作者将天气分为晴天或雨天,照明分为白天或夜晚,驾驶操作分为左转、直行或右转。表 4 对作者的方法与基线 LAW 在不同天气和照明条件下的性能进行了比较分析。作者的方法在几乎所有环境场景中都始终优于 LAW。值得注意的是,与 LAW 相比,在具有挑战性的夜间和雨天条件下,作者的方法分别将碰撞率降低了 63.7% 和 68.8%。这一显著改进归因于整合了来自视觉基础模型的先验,使作者的系统能够理解更高维度的物理环境空间和语义信息。因此,作者的方法对夜间和雨天天气条件中固有的光度不一致性表现出更强的鲁棒性,而这些条件通常会阻碍基线方法中潜在世界模型的时间自监督训练。

表 5 展示了作者的方法与 LAW 在不同驾驶操作下的规划性能比较。与 LAW 相比,作者的方法在各种驾驶操作中生成了显著更安全的规划轨迹。在不同驾驶条件下的卓越规划性能证明了作者的方法的有效性和鲁棒性。
World4Drive 的可扩展性
为了探索作者的方法的可扩展性,作者通过改变隐藏维度 D 的大小和图像主干网来进行实验。如表 6 所示,比较第 1、4 和 5 行,作者将图像主干网从 ResNet34 扩展到 ResNet50 和 ResNet101,而比较第 3、4 和 5 行,作者将隐藏维度的大小从 125 扩展到 256 和 384。消融结果表明,World4Drive 在图像主干网和隐藏维度方面都具有出色的可扩展性。

定性结果
在本节中,作者展示 World4Drive 在 nuScenes 基准测试中的可视化结果。定性结果如图 5 所示。可视化结果的上半部分表明,与 LAW 相比,World4Drive 在转向操作中规划的轨迹更安全。下半部分显示,世界模型选择器能够从多种驾驶意图中有效地选择最合理的轨迹。

结论
本文提出了 World4Drive,一个具有意图感知的物理潜在世界模型。World4Drive 提出了一个创新的框架,将驾驶意图与潜在世界模型相结合,创新性地利用潜在世界模型在不同的意图下生成、评估和选择多模态轨迹。具体来说,World4Drive 提出了一个物理世界潜在编码模块,整合了来自视觉基础模型的空间和语义先验,并聚合了时间信息。在 nuScenes 和 NavSim 基准测试上的广泛实验表明,World4Drive 对物理世界有着深刻而全面的理解,以及将驾驶意图与潜在世界模型紧密结合的有效性。
#Epona
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型
扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回归扩散世界模型,通过两项关键创新实现局部时空分布建模:1)解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2)模块化的轨迹与视频预测,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。
- 论文标题:Epona: Autoregressive Diffusion World Model for Autonomous Driving
- 论文地址:https://arxiv.org/abs/2506.24113
- 项目主页:https://kevin-thu.github.io/Epona/
- GitHub地址:https://github.com/Kevin-thu/Epona/

研究动机剖析
扩散 or 自回归?世界建模仍存鸿沟
近年来,伴随着生成模型的快速发展,世界模型作为模拟物理世界、建构环境动态并辅助智能体进行规划与决策的关键技术范式,受到广泛关注。在自动驾驶这样高动态、高复杂度任务中,世界模型可通过预测未来环境状态,辅助智能体实现前瞻性轨迹规划,从而摆脱对繁复感知模块与昂贵标注数据的依赖,成为构建下一代端到端自动驾驶的重要路径。
然而,当前自动驾驶世界模型的建模方式和架构设计仍存在明显缺陷。现有的世界模型架构主要借鉴自两大类主流生成模型框架:
- 基于视频扩散的世界模型(如 GAIA-2、Vista):能生成高质量连续视频,但仅限固定长度、缺乏时序因果性建模,难以扩展至灵活长度长视频生成和轨迹规划任务;
- 基于自回归Transformer类模型(如 GAIA-1、DrivingWorld):通过离散token自回归建模实现长序列预测,支持闭环控制和视频轨迹联合生成,但牺牲了连续图像质量和真实轨迹建模能力,且自回归长时序推理存在严重误差累积。
这两类方法各有优劣,长期以来缺乏一种统一且实用的解决方案。在自动驾驶等应用中,大家希望模型既具备高质量长时序的预测推理能力 ,又能进行实时运动规划与轨迹控制 ,因此如何革新世界模型的基础架构设计 成为限制世界模型发展的关键挑战。
相关工作回顾
自动驾驶世界模型
构建真实驾驶世界模型近年来受到广泛关注,其中以视觉为中心的方法因其传感器灵活性、数据可访问性以及更接近人类的表征形式而占据主导地位。早期研究主要集中在通过微调将预训练扩散模型(如 Stable Diffusion)适配到驾驶场景中。然而,这些方法要么缺乏关键的规划模块,要么受限于低分辨率和短时生成,难以满足长期一致预测和实时规划的需求。
近期研究探索了采用GPT风格架构来统一视觉与动作建模,并实现了长序列自回归生成。然而,这些方法需要将图像和轨迹编码为离散token,显著降低了视觉质量和轨迹精度。同样,新发布的Cosmos基础模型虽可作为驾驶世界模型,但并未引入新框架,仍面临与前述方法相同的局限性。此外,其庞大的参数量和计算需求也限制了实用性。相比之下,本文提出了一种新颖的自动驾驶自回归扩散世界模型框架,支持连续视觉与轨迹表征下的长序列自回归生成。
长视频生成
长时序预测不仅是当前视频生成模型的关键挑战,也是世界模型鲁棒泛化的核心能力,因为它反映了模型学习环境动态并准确模拟时间进程的能力。由于原始视频扩散模型(如SVD)仅能生成固定长度的短片段,早期方法通过噪声重调度、重叠生成或分层生成扩展视频长度。然而,这些技术未能解决模型固有限制,常导致长视频中出现不一致性和突变视觉效果。
自回归方法天然支持变长生成,但因教师强制训练(teacher-forcing)与采样阶段误差累积之间的领域偏移(domain shift),导致生成质量显著下降。GameNGen和DrivingWorld通过训练中引入噪声增强和随机token丢弃缓解这个问题,但却受限于特定模型架构。本文提出了一种通用的"链式前向训练策略"(chain-of-forward strategy),使模型在训练中直接学习推理误差,有效减少自回归漂移。
近期研究如Diffusion Forcing和FIFO-Diffusion通过调整帧级噪声水平和利用因果网络设计,探索了视频扩散中的自回归生成。Epona采用了类似的因果时间建模策略,但将架构重新定义为两阶段端到端框架,支持运动规划与下一帧图像的联合生成。
算法详解
重新思考世界模型的建模方式

为解决上述问题,Epona 对自动驾驶世界模型的建模范式进行了系统性重构,从而有效融合了扩散模型和自回归模型的优势。Epona 将世界模型建模为一个时序域中的逐步状态预测过程,具体来说,给定过去一段时间内的驾驶场景序列 和对应的驾驶轨迹 ,并完成两个异步协同的生成目标:
- 轨迹策略预测:生成未来 步的行车轨迹
- 下一帧场景预测:基于历史信息和未来第一步轨迹控制,预测下一帧驾驶场景(相机视图)

在此设计基础上,Epona 引入三项关键设计创新:
解耦时空建模
实现灵活长度的高质量长时序视频生成
传统视频扩散模型建模固定长度序列的联合分布,难以支持长视频生成和灵活控制。Epona 首次在扩散世界模型中显式解耦时间建模与空间生成:
- 时序建模:使用多模态时空 Transformer(MST)通过交错的 causal temporal attention 和 spatial attention 编码历史视觉与轨迹序列,提取紧凑的时序潜变量;
- 空间生成:基于时序潜变量条件,使用双-单流结构的 DiT 预测未来轨迹和驾驶场景,支持逐帧自回归生成。
这一结构显式建模了时序信息,显著增强了模型的时间维度可扩展性,允许根据条件灵活生成任意长度的视频 ,同时保持每一帧的高分辨率与细节一致性。实验中,Epona 可在 NuPlan 上生成超过 2分钟(600帧)的高质量驾驶视频。
解耦轨迹与图像生成
支持轨迹控制生成与实时轨迹规划
基于历史信息,Epona 进一步将未来预测分为轨迹生成 和轨迹控制的场景生成两个扩散分支:
- TrajDiT:通过扩散模型生成未来 3 秒连续轨迹 ;
- VisDiT:基于历史信息和当前动作 生成下一帧图像 。
两个分支共享时序潜变量、异步去噪,因而能够分别使用,支持如下能力:
- 轨迹控制生成:可仅使用 VisDiT,输入指定轨迹,生成出特定动作意图下的驾驶视频,也可以将模型自行预测轨迹的第一个动作作为条件,让模型自由幻想驾驶场景;
- 实时轨迹规划 :可仅使用 TrajDiT 实现实时预测未来轨迹 (>20Hz),在不启用图像分支的情况下完成轻量化运动决策。
Chain-of-Forward 训练策略
缓解自回归误差积累

误差累积(Autoregressive Drift)是自回归视频生成中长期存在的一大问题:训练阶段模型使用真实历史帧作为条件,推理时却需要依赖自己的预测结果,导致训练-推理分布不一致,在生成长视频时视觉效果快速下滑。
为此,Epona 引入了一种简单而有效的Chain-of-Forward(CoF)训练策略:在训练阶段周期性使用模型自身预测帧作为下一步输入,从而模拟推理阶段的分布偏移,提升模型对自身噪音的鲁棒性。这一思想恰好与最近很火的 **Self Forcing ** 不谋而合,但 Self Forcing 仍基于已有的视频扩散模型架构,受限于视频扩散模型本身训练的视频长度;而 Epona 使用重新设计和训练的逐帧自回归模型框架,实现真正的逐帧自回归视频生成。
然而,在训练中引入推理会显著影响训练速度,为提升效率,Epona 在训练中仅通过单步生成近似预测下一帧,公式如下:
其中 是加噪后的图像隐变量, 表示通过 Rectified Flow训练的扩散模型(流模型)的速度场预测。该策略有效提升了模型在长序列生成过程中的稳定性与一致性。实验表明,加入 Chain-of-Forward 后,FID 和 FVD 均显著下降,误差累积问题明显缓解。
实验结果
Epona 在 NuPlan和nuScenes数据集上从头训练,输入图像尺寸为 512×1024,模型总参数量约 2.5B,采用 Rectified Flow 目标端到端优化。推理阶段可在单张 4090 GPU 上进行,单张 4090 上图像生成约 2s/帧,轨迹预测支持 20Hz 实时运行。
分钟级长视频生成
与 SoTA 的自动驾驶世界模型 Vista 和 NVIDIA Cosmos (v1-AR-4B)对比,Epona 大大提高了可生成视频的长度,在 NuPlan 数据集上可生成长达 2 分钟(600帧)的驾驶视频,具有显著优势:
,时长00:32
,时长00:32
,时长00:32
轨迹控制视频生成
Epona 支持细粒度的轨迹控制,可根据指定轨迹生成定制化的驾驶视频:
,时长00:21
视频生成结果对比:

端到端轨迹预测
Epona 支持端到端轨迹预测,可用于自动驾驶运动规划,相较专为运动规划设计的端到端网络,在 nuScenes 和 NAVSIM基准上均取得有竞争性的结果:


与其他工作的对比&讨论
近来AR+Diffusion的设计思想受到广泛关注,简要对比Epona的设计思想与相关工作的不同之处:
- Transfusion, JanusFlow , Bagel等工作将 token-by-token 的文本自回归与图像扩散结合,主要聚焦于统一大模型中图像的语义理解和生成;而 Epona 将 frame-by-frame 的时序潜变量自回归与多模态扩散生成相结合,聚焦于解决视频生成中的时序建模与动态一致性问题。
- MAR, NOVA, VideoMAR等工作通过 Diffusion Loss 建模连续 token 的分布,摆脱了传统自回归模型中 VQ 离散化的需求,但当前在视频生成上的探索仍处在初步阶段,局限于生成短时序、动态性小的视频,在世界模型长时序、高动态的视频生成中的能力尚待探索。
- CausVid, Self Forcing, Vid2World等工作通过修改现有的视频扩散模型架构引入时序建模和逐帧生成能力,但仍受限于视频扩散模型本身训练的视频长度;Epona 则重新设计了世界模型架构,将时序建模和逐帧空间建模显式解耦,且支持图像、轨迹多模态生成。
总结
Epona 提出了一种自回归扩散式的新型自动驾驶世界模型框架,通过任务解耦、结构重构与链式训练策略,实现了在同一模型中统一支持分钟级视频生成、轨迹可控模拟和实时规划控制三项核心能力。