51c自动驾驶~合集13

自己的原文哦~https://blog.51cto.com/whaosoft/11686340

#DriveArena

首个高保真闭环生成仿真平台DRIVEARENA是首个为高保真度闭环模拟系统设计的驾驶agent，用于在真实场景中进行导航。DRIVEARENA具有灵活、模块化的架构，可无缝交换其核心组件：交通管理器（Traffic Manager），这是一种能够在全球任何街道地图上生成逼真车流的交通模拟器；以及World Dreamer，这是一个具有无限自回归特性的高保真条件生成模型。这种强大的协同作用使任何能够处理现实世界图像的驾驶agent都能够在DRIVEARENA的模拟环境中进行导航。agent通过世界梦想家生成的图像感知周围环境并输出轨迹。这些轨迹被输入到交通管理器中，以实现与其他车辆的逼真交互并产生新的场景布局。最后，最新的场景布局被传回World Dreamer，从而延续模拟循环。这一迭代过程促进了在高度逼真的环境中的闭环探索，为在不同且具挑战性的场景中开发和评估驾驶agent提供了一个宝贵的平台。DRIVEARENA标志着在利用生成图像数据构建驾驶模拟平台方面取得了重大飞跃，为闭环自动驾驶提供了新见解。

代码链接：https://github.com/PJLab-ADG/DriveArena

DRIVEARENA与现有自动驾驶方法和平台在交互性和逼真度方面的比较。交互性表示平台对车辆的控制程度，范围从开环、不可控闭环到可控闭环。逼真度反映了驾驶场景的真实性，从下到上分为：仅交通流、不现实场景、现实场景和多样场景。DRIVEARENA独特地占据了右上方的位置，是第一个为所有车辆生成多样交通场景和环视图像并具有闭环可控性的模拟平台。

当前领域背景

近几十年来，自动驾驶（AD）算法取得了飞速发展，从模块化流程发展到端到端模型和知识驱动方法。尽管这些算法在各种基准测试中表现出色，但在使用回放的开环数据集进行评估时，仍存在重大挑战，掩盖了它们在现实世界中的有效性。公共数据集虽然提供了真实的驾驶数据、真实的传感器输入和交通行为，但本质上偏向于简单的直线行驶场景。在这种情况下，agent只需保持当前状态即可获得看似良好的表现，从而使在复杂情况下评估实际驾驶能力变得复杂。此外，在开环评估中，agent的当前决策不会影响执行或后续决策，这阻止了它反映现实世界驾驶场景中的累积错误。此外，记录的数据集具有静态特性，其他车辆无法对自车的行为做出反应，这进一步阻碍了在动态、真实世界条件下对自动驾驶算法进行评估。

如图1所示，这里对现有的自动驾驶方法和平台进行了分析，发现其中大多数都不足以进行高保真度的闭环模拟。理想情况下，作为xx智能的一部分，agent应在闭环环境中进行评估，在该环境中，其他agent会对自车（ego vehicle）的行为做出反应，而自车也会相应地接收到变化的传感器输入。然而，现有的模拟环境要么无法模拟传感器输入，要么与现实世界存在显著的领域差异，这使得算法难以无缝集成到现实世界中，从而对闭环评估构成了巨大挑战。我们认为，模拟器不仅应紧密反映现实世界的视觉和物理特性，还应在探索性闭环系统中促进模型的持续学习和进化，以适应各种复杂的驾驶场景。为实现这一目标，建立一个符合物理定律并支持交互功能的高保真模拟器至关重要。

因此，我们推出了DRIVEARENA，这是一款基于条件生成模型的开创性闭环模拟器，用于训练和测试驾驶agent。具体而言，DRIVEARENA提供了一个灵活的平台，可以与任何基于摄像头输入的驾驶agent集成。它采用模块化设计，自然支持每个模块的迭代升级。DRIVEARENA由交通管理器（Traffic Manager）和基于自回归生成的"世界梦想家"（World Dreamer）组成。交通管理器可以在全球任何道路网络上生成逼真的交互式交通流，而World Dreamer是一个具有无限自回归能力的高保真条件生成模型。驾驶agent应根据"World Dreamer"生成的图像做出相应的驾驶动作，并将这些动作反馈给交通管理器以更新环境中车辆的状态。新的场景布局将返回给"World Dreamer"进行新一轮的模拟。这一迭代过程实现了驾驶agent与模拟环境之间的动态交互。具体贡献如下：

**高保真闭环模拟：**我们提出了首个针对自动驾驶的高保真闭环模拟器DRIVEARENA，该模拟器能够提供逼真的周围图像，并与现有的基于视觉的驾驶agent无缝集成。它能够紧密反映现实世界的视觉和物理特性，使agent能够以闭环方式持续学习和进化，适应各种复杂的驾驶场景。

**可控性和可扩展性：**我们的交通管理器（Traffic Manager）可以动态控制场景中所有车辆的移动，并将道路和车辆布局输入给World Dreamer。"World Dreamer"利用条件扩散框架以稳定且可控的方式生成逼真的图像。此外，DRIVEARENA支持使用全球任何城市的道路网络进行模拟，能够创建具有不同风格的各种驾驶场景图像。

模块化设计： 驾驶agent（Driving Agent）、交通管理器（Traffic Manager）和World Dreamer通过网络接口进行通信，构建了一个高度灵活且模块化的框架。这种架构允许使用不同的方法替换每个组件，而无需特定的实现。作为这些参与者的竞技场，DRIVEARENA促进了基于视觉的自动驾驶算法和驾驶场景生成模型的全面测试和改进。

DRIVEARENA框架

如图2所示，提出的DRIVEARENA框架包含两个关键组件：一个是作为后端物理引擎的交通管理器（Traffic Manager），另一个是作为现实世界图像渲染器的World Dreamer。与传统方法不同，DRIVEARENA不依赖于预建的数字资产或重建的3D道路模型。相反，交通管理器能够适应OpenStreetMap（OSM）格式中任何城市的道路网络，这些网络可以直接从互联网下载。这种灵活性使得在不同城市布局上进行闭环交通模拟成为可能。

交通管理器接收自动驾驶agent输出的自车轨迹，并管理所有背景车辆的移动。与依赖扩散模型来进行图像生成和车辆运动预测的世界模型方法不同，我们的交通管理器采用显式的交通流生成算法。这种方法能够生成更广泛的不常见且可能不安全的交通场景，同时也便于实时检测车辆之间的碰撞。

"World Dreamer"能够生成逼真的camera图像，这些图像与交通管理器的输出精确对应。此外，它还允许用户自定义提示来控制生成图像的各种元素，如街景风格、一天中的时间和天气状况，从而增强了生成场景的多样性。具体来说，它采用了一种基于扩散的模型，该模型利用当前的地图和车辆布局作为控制条件来生成环视图像。这些图像作为端到端驾驶agent的输入。鉴于DRIVEARENA的闭环架构，扩散模型需要保持生成图像中的跨视图一致性和时间一致性。

当前帧生成的多视图图像被输入到端到端自动驾驶agent中，该agent可以输出自车（ego vehicle）的运动情况。随后，将规划的自车轨迹发送给DRIVEARENA进行下一步的模拟。当自车成功完成整个路线、发生碰撞或偏离道路时，模拟结束。完成后，DRIVEARENA执行全面的评估过程，以评估驾驶agent的能力。

值得注意的是，DRIVEARENA采用了分布式模块化设计。交通管理器（Traffic Manager）、World Dreamer和自动驾驶（AD）agent通过网络使用标准化接口进行通信。因此，DRIVEARENA并不强制要求World Dreamer或自动驾驶agent的具体实现方式。我们的框架旨在为这些"参与者"提供一个"竞技场"，促进端到端自动驾驶算法和真实驾驶场景生成模型的全面测试和改进。

方法介绍

1）Traffic Manager

大多数现有的真实驾驶模拟器依赖于公共数据集中有限的布局，缺乏动态环境的多样性。为了应对这些挑战，我们利用LimSim作为底层交通管理器来模拟动态交通场景，并为后续的环境生成生成道路和车辆布局。LimSim还提供了一个用户友好的前端图形用户界面（GUI），该界面直接显示鸟瞰图（BEV）地图以及来自World Dreamer和驾驶agent的结果。

我们的交通管理器能够实现交通流中多辆车的交互式模拟，包括全面的车辆规划和控制。我们采用了一个层次化的多车决策和规划框架，该框架对流中的所有车辆进行联合决策，并通过高频规划模块迅速响应动态环境。该框架还融入了合作因子和轨迹权重集，在社交和个人层面为交通中的自动驾驶车辆引入了多样性。

此外，动态模拟器支持从OpenStreetMap获取任何城市的各种自定义高清地图，便于构建多样化的道路图以进行便捷的模拟。交通管理器控制所有背景车辆的移动。对于主体车辆（即自动驾驶车辆本身），提供两种不同的模拟模式：开环和闭环。在闭环模式下，驾驶代理为主体车辆进行规划，交通管理器则使用agent输出的轨迹来相应地控制主体车辆。在开环模式下，驾驶agent生成的轨迹并不实际用于控制主体车辆；相反，交通管理器以闭环方式保持控制。

2）World Dreamer

与最近使用神经辐射场（Neural Radiance Fields, NeRF）和3DGS（3D Gaussian Splatting）从记录的视频中重建环境的自动驾驶生成方法不同，我们设计了一个基于扩散的World Dreamer。它利用来自交通管理器的地图控制条件和车辆布局来生成几何和上下文上准确的驾驶场景。框架具有以下几个优势：（1）更好的可控性。生成的场景可以通过交通管理器中的场景布局、文本提示和参考图像来控制，以捕捉不同的天气条件、光照和场景风格。（2）更好的可扩展性。框架可以适应各种道路结构，而无需事先对场景进行建模。理论上，通过利用OpenStreetMap的布局，支持为世界上任何城市生成驾驶场景。

在图3中展示了基于扩散的"World Dreamer"。在稳定的扩散流程的基础上，"World Dreamer"利用了一个有效的条件编码模块，该模块可接受包括地图和车辆布局、文本描述、相机参数、自我姿态和参考图像在内的多种条件输入，以生成逼真的环视图像。考虑到对于驾驶agent而言，确保跨不同视图和时间跨度的合成场景一致性至关重要，这里借鉴了[29]的灵感，集成了一个跨视图注意力模块，以保持不同视图之间的一致性。此外，采用了一种图像自回归生成范式来强制时间一致性。这种方法使"World Dreamer"不仅能够最大限度地保持生成视频的时间一致性，还能在无限流中生成任意长度的视频，为自动驾驶模拟提供了极大的支持。

条件编码。先前的工作将鸟瞰图（BEV）布局作为条件输入来控制扩散模型的输出，这增加了网络学习生成几何和上下文准确的驾驶场景的难度。本工作提出了一种新的条件编码模块来引入更多的指导信息，这有助于扩散模块生成高保真度的环视图像。具体来说，除了使用与[29]类似的条件编码器对每个视图的相机姿态、文本描述、3D目标边界框和BEV地图布局进行编码外，还明确地将地图和目标布局投影到每个相机视图上，以生成更准确的车道和车辆生成指导的布局画布。具体来说，文本嵌入是通过使用CLIP文本编码器对文本描述进行编码获得的。每个相机的参数（其中K、R、T分别代表相机内参、旋转和平移）和3D边界框的8个顶点通过傅里叶嵌入编码为和。2D BEV地图网格使用与[29]中相同的编码方法获得嵌入。然后，将高清地图和3D边界框的每个类别分别投影到图像平面上，以获得地图canvas和边界框canvas。这些canvases被连接起来以创建layout canvas。最后，通过条件编码网络对layout canvas进行编码，得到最终的特征。

此外，这里还引入了一个参考条件来提供外观和时间一致性指导。在训练过程中，随机从过去的L帧中提取一帧作为参考帧，并使用预训练的CLIP模型从多视图图像中提取参考特征。编码后的参考特征隐含了语义上下文，并通过交叉注意模块整合到条件编码器中。为了使扩散模型能够感知到自车的运动变化，还将自车相对于参考帧的姿态编码到条件编码器中，以捕捉背景的运动变化趋势。相对姿态嵌入通过傅里叶嵌入进行编码。通过整合上述控制条件，我们可以有效地控制周围图像的生成。

自回归生成。为了促进在线推理和流式视频生成，同时保持时间一致性，我们开发了一个自回归生成流程。在推理阶段，之前生成的图像和相应的相对自车姿态被用作参考条件。这种方法引导扩散模型生成当前周围图像，以增强一致性，确保与先前生成的帧之间的过渡更加平滑和连贯。

本文中我们设计的只是World Dreamer的一个简单实现。我们还验证了将自回归生成扩展到多帧版本（使用多个过去帧作为参考并输出多帧图像）以及添加额外的时间模块可以提高时间一致性。

3）Driving Agent

最近的工作已经证明了在公共数据集上进行开环评估以证明驾驶agent规划行为的挑战，这主要是由于所呈现的驾驶场景过于简单。虽然一些研究已经使用如CARLA等模拟器进行了闭环评估，但这些模拟与现实世界的动态环境之间仍存在外观和场景多样性的差异。为了弥补这一差距，DRIVEARENA提供了一个真实的模拟平台，并配备了相应的接口，供基于camera的驾驶agent进行更全面的评估，包括开环和闭环测试。此外，通过改变输入条件（如道路和车辆布局），DRIVEARENA可以生成极端情况，并促进这些驾驶agent在分布外场景下的评估。不失一般性，我们选择了一个具有代表性的端到端驾驶agent，即UniAD在DRIVEARENA中进行开环和闭环测试。UniAD利用周围图像来预测自车和其它agent车辆的运动轨迹，这可以无缝地与我们动态模拟器的API集成以进行评估。此外，感知输出（如3D检测和地图分割）有助于提升我们环境中生成场景的现实性验证。

4）自车控制模式与评估指标

DRIVEARENA 本质上支持驾驶agent的"闭环"仿真模式。即，系统采用agent在每个时间步长输出的轨迹，基于该轨迹更新自车的状态，并模拟背景车辆的动作。随后，它生成下一个时间步长的多视图图像，从而保持连续的反馈闭环。此外，认识到一些自动驾驶agent在开发过程中可能无法进行长期闭环仿真，DRIVEARENA 还支持"开环"仿真模式。在这种模式下，交通管理器将接管自车的控制，而自动驾驶代理输出的轨迹将被记录下来以供后续评估。

在开环和闭环模式下，从结果导向的角度全面评估自动驾驶agent的性能至关重要。受 NAVSIM 和 CARLA 自动驾驶排行榜的启发，DRIVEARENA 采用两种评估指标：PDM 分数（PDMS）和 Arena 驾驶分数（ADS）。

PDMS（路径偏差和速度匹配分数），最初由 NAVSIM提出，用于评估每个时间步长输出的轨迹。遵循 PDMS 的原始定义，该定义综合了以下子分数：

其中，惩罚包括与道路使用者无碰撞（NC）和可行驶区域合规性（DAC），以及包括自我进展（EP）、碰撞时间（TTC）和舒适度（C）的加权平均数。我们对DRIVEARENA进行了小幅修改：在NC评分中，我们不区分"过错方"碰撞；在EP评分中，我们使用交通管理器的自车路径规划器作为参考轨迹，而不是预测驾驶员模型。在模拟结束时，将所有模拟帧的最终PDM分数进行平均。

对于开环模拟，PDMS直接作为自动驾驶agent的评估指标。然而，对于在"闭环"模拟模式下运行的驾驶agent，这里采用了一个更全面的指标，称为Arena Driving Score (ADS)，该分数结合了轨迹PDMS和路线完成度：

其中，Rc ∈ [0, 1] 表示路线完成度，定义为agent完成的路线距离百分比。由于"闭环"模拟会在agent与其他道路使用者发生碰撞或偏离道路时终止，因此ADS为区分agent的驾驶安全性和一致性提供了一个合适的指标。

实验对比

图5. 不同提示和参考图像对相同场景影响的展示。该图展示了DRIVEARENA为同一个30秒模拟序列生成的四个不同的图像序列，每个序列都使用了不同的提示和参考图像。所有序列都严格遵循给定的道路结构和车辆控制条件，保持跨视图的一致性。值得注意的是，这四个序列在天气和光照条件上呈现出显著的差异，但在整个30秒的过程中都始终如一地保持了各自独特的风格。点击此处查看视频演示。

#CLIP视觉感知

还能怎么卷？模型架构改造与识别机制再升级

近年来，随着计算机视觉与自然语言处理技术的飞速发展，CLIP（Contrastive Language-Image Pre-training）模型作为一种强大的跨模态预训练模型，其应用与研究领域不断拓展。为了进一步提升CLIP模型在处理复杂任务时的效能与精度，众多研究团队致力于对传统的CLIP模型进行多维度、深层次的改进，旨在增强其特定领域的能力，比如增强CLIP在少样本分类任务上的泛化能力、细化CLIP的视觉识别区域、强化CLIP对图像内容的关注而非对图像非内容特征的关注、优化图像-文本跨模态对齐等能力。

在具体实施上，这些改进大多聚焦于CLIP的视觉编码器和文本编码器的改造。例如，通过对编码器的注意力池化层进行参数微调，可以使其更加适应特定任务的需求；引入多模态通道则可以增强模型在处理跨模态信息时的灵活性和鲁棒性；改造最终回归层则可以直接优化模型的输出性能；而改进输入数据的方式，如为模型提供伪标签或预先增强图像、文本数据，则可以从源头上提升模型的学习效率和效果。这些改造包括但不限于以下几个方面：

编码器改造：对CLIP的视觉和文本编码器进行结构调整或参数优化，以提高特征提取的能力。
注意力机制优化：通过微调注意力池层的参数或引入新的注意力模式，增强CLIP对关键视觉信息的捕捉。
多模态通道融合：在CLIP中引入多模态融合技术，如使用交叉注意力机制，以加强图像和文本之间的信息交流。
回归层调整：改造CLIP的最终回归层，以更好地适应不同任务的需求，如分类、检测或分割。
输入数据改进：为CLIP输入经过预处理或增强的数据，提供伪标签以指导学习，或通过数据增强提高模型的鲁棒性。
正则化技术：应用各种正则化技术，如Dropout、权重衰减等，以防止模型过拟合，并提高其泛化能力。
损失函数设计：设计新颖的损失函数，以更好地反映任务特性，促进模型在特定方向上的性能提升。

本文精心梳理了数篇前沿研究，这些研究聚焦于如何通过创新策略改进传统的CLIP模型，以显著增强其处理复杂任务的能力。从优化少样本分类的泛化性到细化视觉识别精度，再到深化图像内容与文本之间的跨模态对齐，每一篇都为我们揭示了CLIP模型潜力的新边界。接下来就让我们一起看看CLIP模型还能如何被进一步强化与拓展吧！

使用语义感知微调增强 Few-shot CLIP

https://arxiv.org/abs/2311.04464

关键词：CLIP的视觉编码器注意力池层参数微调

文章总结

文章提出了一种名为Semantic-Aware FinE-tuning (SAFE)的新方法，旨在通过微调CLIP模型的视觉编码器中的特定部分来增强其在 Few-shot场景下的表现。文章首先指出，在少样本(few-shot)微调过程中，直接采用预训练的CLIP模型可能导致灾难性遗忘和过拟合。此外，预训练的参数可能并不完全适合所有下游任务。CLIP的视觉编码器包含一个独特的注意力池层，该层对密集特征图执行空间加权求和 。由于密集特征图中包含了丰富的语义信息，文章认为应该根据下游任务的具体需求来调整这些特征的权重。为了解决上述问题，文章提出了SAFE方法。这一方法在训练过程中微调注意力池层的参数，目的是让模型能够专注于对当前任务更为重要的语义特征。 例如，在宠物分类任务中，模型应更多地关注耳朵和眼睛，而不是车辆分类任务中可能更关注的侧镜。在推理阶段，**SAFE采用了一种残差混合技术，结合了经过微调的注意力池层和原始注意力池层的特征。这样做可以整合来自少样本的特定知识和预训练模型的先验知识。**SAFE方法不仅独立有效，还可以与现有的适配器方法(如SAFE-A)兼容，进一步提升CLIP在少样本分类任务中的表现。文章通过在11个基准数据集上的广泛实验，证明了SAFE和SAFE-A方法在1-shot和4-shot设置下均显著优于现有最佳方法。

模型解析

该文章改进CLIP在少样本分类任务上的泛化能力的关键在于微调了CLIP视觉编码器中的注意力池层 的参数，使其更加适用于当前任务，并且整合了微调后的和原始注意力池层。传统的CLIP模型的视觉编码器主要包含以下几类层： 视觉特征提取层（包括卷积层、激活层、归一化层、残差连接）、注意力池层（这是CLIP特有的层，它使用多头注意力机制来对密集特征图进行空间加权求和，生成能够捕捉图像全局上下文信息的特征表示） 、池化层（用于降低特征的空间维度，从而减少参数数量和计算量，同时使特征检测更加鲁棒）、全连接层（在卷积神经网络的末端，用于将学习到的特征映射到最终的输出，例如类别概率）。文章对注意力池层进行的参数微调是基于CLIP在池化层之前的密集特征的有意义的语义属性，从而促使模型根据特定的下游任务关注不同的语义信息。

具体来说，CLIP独特的注意力池层利用了Transformer的多头注意力机制。注意池层内部的操作如下：通过线性层Linearq将全局平均特征F映射到query q，通过线性层Lineark和Linearv将每个空间位置的密集特征F映射到key-value对。然后，注意池层通过缩放后的点积注意（dot-product attention）得到输入的密集特征的空间加权和，再输入线性层Linearc。注意池层的输出是整个图像的综合表示，可以捕获密集特征映射中的关键语义，用于视觉识别。简而言之，注意池化层对密集特征中的各种空间语义赋予不同的权重，通过加权和的方法将特征池化。

另外在推理过程中，文章将微调后的注意池层与原始注意池层进行残差混合，将预训练得到的先验知识与Few-shot知识结合起来，从而避免了在少样本任务上微调可能导致的灾难性遗忘问题。

Alpha-CLIP：关注你想重点关注的部分，看这篇就够了

https://arxiv.org/abs/2312.03818

关键词：在CLIP输入中引入新通道

文章总结

对比语言-图像预训练（CLIP）在从不同任务的图像中提取有价值的内容信息方面发挥着至关重要的作用。它对齐文本和视觉模式来理解整个图像，包括所有细节，甚至是那些与特定任务无关的细节。然而，为了更精细地理解和控制图像的编辑，关注特定的感兴趣区域变得至关重要，这些区域可以被人类或感知模型指示为点、蒙版或框。为了满足这些要求，我们引入了 Alpha-CLIP，**这是 CLIP 的增强版本，带有辅助 Alpha 通道，用于建议关注区域，并通过构建的数百万个 RGBA 区域文本对进行微调。Alpha-CLIP不仅保留了CLIP的视觉识别能力，而且能够精确控制图像内容的重点。**它在各种任务中都表现出了有效性，包括但不限于开放世界识别、多模态大型语言模型和条件 2D/3D 生成。它具有很大的潜力，可以作为图像相关任务的多功能工具。

模型解析

文章介绍了一个名为Alpha-CLIP的模型，它是Contrastive Language-Image Pre-training (CLIP)的一个增强版本，**主要改进在于增加了一个辅助的Alpha通道，用于指示模型应该关注图像中的特定区域。**以下是对Alpha-CLIP模型架构的总结：

Alpha通道引入：Alpha-CLIP在传统的RGB图像通道基础上增加了一个Alpha通道，该通道作为一个蒙版（mask），可以用来指定图像中的感兴趣区域（Region of Interest, RoI）。Alpha通道的值范围从0（完全透明，表示背景）到1（完全不透明，表示前景）。
数据生成管道：为了训练Alpha-CLIP，研究者设计了一个数据生成管道，利用现有的图像和标注数据，结合Segment Anything Model (SAM) 和多模态大型模型（如BLIP-2）生成了数百万个RGBA区域文本对。Alpha-CLIP通过这些RGBA区域文本对进行微调。在微调过程中，保持CLIP文本编码器固定，只训练图像编码器，特别是新引入的Alpha卷积层，以及随后的Transformer块。
Alpha-CLIP的图像编码器在结构上进行了细微的修改，以接受额外的Alpha通道输入。在Vision Transformer (ViT) 结构中，Alpha通道通过一个与RGB卷积层平行的Alpha卷积层进行处理。在训练Alpha-CLIP时，采用了特定的数据采样策略，以偶尔用原始图像-文本对替换生成的RGBA-文本对，并设置Alpha通道为全1，以保持对全图的识别能力。

总结来说，Alpha-CLIP通过对CLIP模型的扩展，引入了Alpha通道来指定图像中的关注区域，并通过大量RGBA区域文本对的微调，实现了对图像特定内容的精确控制和强调，同时保持了CLIP的原有视觉识别能力。

CLIP-VG：基于Self-paced课程学习，使CLIP实现视觉定位

https://arxiv.org/abs/2305.08685

关键词：改造CLIP最终回归层来实现视觉定位，self-paced式端到端优化

文章总结

视觉定位（VG, Visual Grounding）是视觉和语言领域的一个关键主题，它将由文字表达描述的特定区域定位在图像中。为了减少对手动标记数据的依赖，已经开发了无监督视觉定位技术，以使用伪标签来定位区域。然而，现有无监督方法的性能高度依赖于伪标签的质量，这些方法总是遇到多样性有限的问题。为了利用视觉和语言预训练模型来解决视觉定位问题，并合理利用伪标签，我们提出了CLIP-VG，这是一种新方法，可以对带有伪语言标签的CLIP进行self-paced课程学习。我们提出了一种简单而高效的端到端网络架构 ，以实现CLIP到视觉定位的迁移学习。**基于CLIP架构，进一步提出单源和多源self-paced课程算法，该算法可以逐步找到更可靠的伪标签来学习最优模型，从而实现伪语言标签的可靠性和多样性之间的平衡。**在单源和多源场景下，该方法在RefCOCO/+/g数据集上的表现明显优于目前最先进的无监督方法，改进幅度为6.78%至 10.67%和 11.39%至 14.87%分别。其结果甚至优于现有的弱监督视觉定位方法。此外，我们的方法在完全监督的环境中也具有竞争力。

模型解析

CLIP-VG采用了一个简单而高效的纯Transformer编码器架构 ，该架构只需要调整少量参数，以最小的训练资源实现CLIP模型向视觉定位任务的迁移。为了防止灾难性遗忘，并保持CLIP的泛化能力，CLIP的编码器参数在训练过程中被冻结，只有与Transformer相关的少量参数被更新和优化。最后使用回归多层感知器（MLP）作为最终的回归层，用于预测文本描述所指的视觉区域的边界框（bounding box）。
单源伪标签 是通过利用空间关系先验知识和由检测器提供的物体标签（包括类别和属性信息）合成的。多源伪标签 是利用了基于场景图生成的方法来生成伪关系标签，或使用基于图像描述的方法来生成伪字幕标签。在多源情况下，模型首先独立地为每个伪标签源学习一个初步的特定源视觉定位模型，然后根据每步的平均实体数量选择伪标签源，逐步从简单到复杂。在MSA中，提出了源特定可靠性（Source-specific Reliability, SR）和跨源可靠性（Cross-source Reliability, CR）的概念，以利用来自不同源的伪标签进行学习。
提出了单源（Single-source Self-paced Adapting, SSA）和多源（Multi-source Self-paced Adapting, MSA）self-paced课程学习算法 。这些算法逐步找到更可靠的伪标签，以提高定位性能。模型包括一个评估实例级质量的方案，通过学习一个初步的视觉定位模型作为可靠性测量器，使用特定的标签源来计算样本的可靠性，并构建可靠性直方图 （Reliability Histogram, RH）。基于修改的二进制搜索，设计了一个贪婪样本选择策略，以实现可靠性和多样性之间的最佳平衡。

总的来说，CLIP-VG模型通过self-paced课程学习的方式，有效地利用伪语言标签来提升视觉定位任务的性能，同时保持了模型的高效性和泛化能力。

RWKV-CLIP：强大的视觉语言表征学习

https://arxiv.org/abs/2406.06973

关键词：优化CLIP视觉、文本编码器

文章总结

对比语言-图像预训练（CLIP）通过使用从网站获得的图像-文本对扩展数据集，显着提高了各种视觉-语言任务的性能。本文从数据和模型架构的角度进一步探讨了CLIP。为了解决杂噪声数据的普遍存在问题并提高从互联网抓取的大规模图像文本数据的质量，我们引入了一个多样化的描述生成框架，该框架可以利用大型语言模型（LLM）从基于 Web 的文本、合成标题和检测标签中合成和提炼内容。**此外，我们提出了RWKV-CLIP，这是第一个由RWKV驱动的视觉语言表征学习模型，它将transformer的有效并行训练与RNN的高效推理相结合。**在各种模型尺度和预训练数据集上的综合实验表明，RWKV-CLIP是一个强大而高效的视觉语言表征学习，它在几个下游任务中实现了最先进的性能，包括线性探针、零样本分类和零样本图像-文本检索。

模型解析

RWKV-CLIP由多个空间混合(Spatial Mixing)和通道混合(Channel Mixing)模块堆叠而成，通过这些模块实现对输入图像和文本的深入处理，从而优化视觉、文本特征的融合。

优化特征融合：在空间混合阶段，模型利用注意力机制进行全局的线性复杂度计算，强化特征在通道层级的交互。 输入数据通过四个并行线性层进行处理，以获得多头部的向量。利用双向偏移量增强特征在通道层级的交互，例如使用Q-Lerp和B-Lerp进行图像和文本的线性插值。在空间混合之后，模型通过通道混合模块进一步细化特征表示。
**模型采用了RWKV单元，这是一种新型的RNN单元，旨在解决Transformer中的内存瓶颈和二次方计算复杂度问题。**RWKV单元通过高效的线性扩展保持了并行训练和鲁棒可扩展性。

为了提高大规模网络图像-文本数据的质量，引入多样化描述生成框架，利用大型语言模型（LLMs）合成和优化来自网络文本、合成字幕和检测标签的内容。RWKV-CLIP通过改进的编码器架构，实现了图像和文本之间的更优跨模态对齐。模型通过优化数据和模型架构，增强了对噪声数据的鲁棒性，尤其是在处理大规模网络数据时。

CLAP：如何将内容与风格隔离开？增强提示对比学习来帮你

https://arxiv.org/abs/2311.16445

关键词：改进CLIP编码器

文章总结

对比视觉语言模型（如CLIP）因其学习特征出色的泛化能力，在多种下游任务中获得了广泛关注。然而，这些模型学习的特征往往融合了内容和风格信息，这在一定程度上限制了其在分布变化下的泛化能力。为了克服这一局限性，文章采用因果生成视角来处理多模态数据，并提出结合数据增强的对比学习方法，以从原始表示中分离出内容特征 。为实现这一目标，文章首先探索了图像增强技术，并开发了一种方法将其无缝集成到预训练的CLIP类模型中，以提取纯粹的内容特征。**更进一步地，作者认识到文本数据固有的语义丰富性和逻辑结构，探索了文本增强的使用，以从风格特征中分离出潜在内容。**这使得CLIP类模型的编码器能够专注于潜在的内容信息，并通过预训练的CLIP类模型优化学习到的表示。通过在多个数据集上进行了广泛的实验，结果表明，在零样本和少样本分类任务上取得了显著改进，同时对各种扰动的鲁棒性也得到了增强。这些结果凸显了文章所提方法在优化视觉语言表示和推动多模态学习领域最新进展方面的有效性。

模型解析

文章提出了一种名为CLAP（Contrastive Learning with Augmented Prompts）的新方法，旨在通过对比学习和数据增强来分离视觉-语言模型中的内容和风格特征。

文章采用了因果生成模型来理解多模态数据（图像和文本）。在这个模型中，图像和文本数据被认为是通过不同的生成过程由共享的潜在空间中的潜在变量产生的。这个空间被分为两部分：一部分对应于内容变量 c ，另一部分对应于风格变量 s 。内容变量 c 被假设为决定样本标签 y 的因素。
为了分离内容和风格信息，文章探索了图像增强技术 。通过在潜在风格变量上应用软干预（soft interventions），可以生成增强的图像 ，其中内容信息保持不变而风格信息发生变化。作者开发了一种方法将图像增强技术集成到预训练的CLIP模型中。这是通过设计一个解耦网络（disentangled network）来实现的，该网络使用对比损失（contrastive loss）和图像增强来微调预训练的CLIP模型，从而提取内容特征。
鉴于文本数据的语义丰富性和逻辑结构，文章进一步探索了文本增强 。通过文本增强，可以在不改变内容的情况下改变风格因素，这有助于分离出潜在的内容。例如，将文本从"a photo of a dog"变换为"a sketch of a dog"在语言模态中是直接的，而在图像数据中实现类似的变换则具有挑战性。接着，文章提出了对比学习与增强提示CLAP方法 ，它使用预训练的文本编码器和文本增强来训练解耦网络。然后，将训练好的解耦网络转移到CLIP模型的图像编码器上，以提取内容表示。

总结来说，CLAP通过结合因果生成模型、图像和文本增强技术，以及对比学习，有效地从CLIP类模型中分离并提取了内容特征，从而提高了模型在多模态学习中的性能和鲁棒性。

关注你的近邻：免训练的开放词汇语义分割

https://arxiv.org/abs/2404.08181

关键词：通过在CLIP的视觉Transformer的自注意力中强制执行补丁定位实现密集预测

文章总结

尽管深度学习在密集视觉识别问题（如语义分割）上取得了显著进展，但传统方法仍受到固定类别集的限制。与此同时，诸如CLIP（对比语言-图像预训练）之类的视觉-语言基础模型在众多零样本图像级任务中展示了非凡的有效性，这得益于其强大的泛化能力。最近，一些研究工作探讨了将这些模型应用于开放词汇集语义分割（Open-Vocabulary Semantic Segmentation, OVSS）。然而，现有方法往往依赖于不切实际的监督式预训练或需要访问额外的预训练网络。本研究为无需训练的OVSS提出了一种强大的基线方法，称为邻域感知CLIP （Neighbour-Aware CLIP, NACLIP），这是一种针对此情景量身定制的CLIP简单适配方法。本文的方法在CLIP的视觉Transformer的自注意力中强制执行补丁定位 ，尽管这对于密集预测任务至关重要，但在OVSS文献中却被忽视了。通过融入有利于分割的设计选择，我们的方法在不需要额外数据、辅助预训练网络或广泛超参数调优的情况下，显著提高了性能，使其在现实世界应用中具有高度的实用性。我们在8个流行的语义分割基准上进行了实验，并在大多数情况下取得了最先进的性能。

模型解析

传统CLIP模型在自注意力模块中学习到的是空间不变性的特征，这对于图像级别的任务（如分类）是有益的，但对于密集预测任务（如语义分割）则不够。NACLIP通过引入空间一致性，改进了自注意力机制，使得模型能够更好地捕捉局部空间信息。
NACLIP强制执行补丁（patch）在CLIP自注意力中的定位，这是通过修改自注意力模块来实现的，具体如下：（1）引入空间一致性：通过将高斯核（Gaussian kernel）添加到自注意力模块的注意力图中，增强了对每个补丁邻域的关注。（2）修改相似性度量：NACLIP使用基于键（key）向量的点积来计算相似度，而不是传统的基于查询（query）和键（key）的点积。
在NACLIP中，移除了CLIP模型中的[CLS]标记 ，因为在密集预测任务中，该标记对于提取有用的分割信息并不成功。此外，NACLIP简化了CLIP的视觉Transformer的最终编码器块，移除了最终编码器块的前馈网络（feed-forward network），因为其参数是为图像级别任务而非密集预测任务训练的。

通过这些改进，NACLIP能够更好地适应OVSS任务，特别是在没有额外训练数据或预训练网络的情况下，提高了模型对新类别的泛化能力。

天皓智联开发板商城视觉等相关设备

#SuperVINS

基于深度学习的SLAM前端改进框架拥抱"炼丹"

视觉惯性SLAM领域已经发展出众多突破性的工作，但它们在快速移动环境、弱纹理环境和光照不足的环境中仍存在一些限制。图1展示了经典几何特征和深度学习特征在SLAM中的应用对比。在黑暗环境中，很明显仅提取到有限数量的几何特征，导致地图点稀疏。这是因为传统方法依赖于低级几何特征，在处理复杂环境时存在固有的局限性。

低级几何特征不足以处理复杂环境。先进的深度学习方案可以通过学习和利用场景数据中的隐含特征信息来弥补这一限制。与固定算法模型不同，深度学习模型不需要显式表达这些信息。在SLAM领域，已经有几项结合深度学习算法的工作，这些工作可以分为三类：

将深度学习特征应用于视觉里程计：这种解决方案侧重于创建没有传感器融合或回环检测优化的视觉里程计。
采用端到端方法：用于视觉里程计，然而这种方法在解释其原理和实现令人满意的姿态估计和映射效果方面面临挑战。
将当前的三维重建技术与深度学习结合起来：结合显式或隐式的3D表示方法来感知环境，同时优化姿态。这种方法将场景表达融合到姿态估计中，然而它需要大量的计算能力，并且实时性能较差。

本文介绍的SuperVINS[1]提出了一种结合深度学习技术的视觉惯性SLAM系统。基于VINS-Fusion框架，这种方法在SLAM的前端和回环检测阶段利用深度学习特征点和描述子。与传统几何特征不同，深度学习特征能够更全面、更可靠地提取图像特征，使其在极端环境中表现尤为出色。此外，使用深度学习特征描述子提高了回环检测的准确性，使本文系统能够更精确地选择回环帧。主要贡献总结如下：

改进了VINS-Fusion框架。前端部分用深度学习特征点和描述子取代了原来的几何特征和LK光流跟踪算法，使用了深度学习特征匹配方法进行特征匹配。
为应对极端场景，将深度学习特征应用于整个SLAM系统。通过话题发布将深度学习特征有效结合到SLAM的前端和回环检测中。
单独训练了SuperPoint的词袋，并针对EuRoC、TUM和KITTI数据集训练了适用于这些数据集的深度学习词袋，为后续研究人员提供了实现回环检测方案的可行思路。

代码仓库链接：https://github.com/luohongk/SuperVINS

具体方法

系统概述

SuperVINS框架基于著名的视觉惯性SLAM框架VINS-Fusion。SuperVINS遵循与VINS-Fusion相同的架构设计，但在其基础上进行了优化和改进。具体流程如图3所示。算法的主要组件包括前端深度学习特征提取和跟踪、后端位置优化以及深度学习回环检测。深度学习特征提取有多种方案可选，这项工作可作为灵活替换深度学习方法的参考。此外提供了使用开源代码DboW3对SuperPoint和XFeat[2]特征进行词袋训练的示例。

首先，系统输入相机数据和IMU数据。系统利用SuperPoint和LightGlue对两个连续图像帧的特征进行匹配，同时进行预积分。在匹配过程中，使用RANSAC算法优化LightGlue的特征匹配结果。前端优化完成后，特征同时发送到负责回环检测的节点。SuperVINS构建关键帧，随后用于位置估计和优化。位置计算完成后，系统将关键帧的特征、位置和点云图传送到回环检测节点。回环检测节点使用DboW3进行特征检索并执行位图优化。该系统利用深度学习特征提取足够数量的特征点并提高特征匹配质量。相比传统几何特征，使用深度学习特征并通过匹配优化在整个SLAM系统中显著解决了在极端场景中遇到的各种挑战。

特征提取

SuperPoint特征提取网络框架能够提取图像的特征点和对应的描述子。主要过程是对输入图像进行编码，然后对特征点和描述子进行解码。解码以像素卷积的形式进行。整体框架如图2所示。

特征点检测网络作为一个编码器和解码器，对信息进行编码和解码。它为图像中的每个像素分配一个概率，表示其成为特征点的可能性。为了减少计算工作量，采用子像素卷积，因为解码器的计算量更大。类似地，描述子检测网络也作为一个解码器。它首先学习一个半稠密描述子，然后应用双三次插值算法获得完整描述子。最后，使用L2归一化以确保描述的单位长度。网络分为两个分支，损失函数也自然分为两个分支。为了简化训练过程，SuperPoint将两个分支的损失函数结合起来，作为最终损失函数。最终损失函数的具体公式如公式(1)所示：

其中，是特征点的损失函数，是描述子的损失函数，系数用于平衡特征点损失函数和描述子损失函数的权重。

通过这种特征提取方法，SuperPoint能够在图像中准确定位特征点并生成高质量的描述子，为后续的特征匹配和SLAM过程提供坚实的基础。

特征匹配

LightGlue网络概述

LightGlue[3]是一种快速特征匹配方法。将LightGlue特征匹配方法与其他两种方法进行比较，如图4所示。LightGlue使用一个已经包含两组特征点和描述子的匹配网络，目标是输出图像A和图像B之间的一组对应点。然而，由于遮挡或不重复性，某些关键点可能没有匹配。为了解决这个问题，使用一个软分配矩阵来表示元素之间的关联程度。在这个匹配问题中，软分配矩阵用于表示图像中局部特征的匹配程度。LightGlue由多层组成，这些层在两组特征上操作。每一层由自注意力和交叉注意力单元组成，负责更新每个点的表示。在每一层，分类器决定是否执行推理，从而避免不必要的计算。最后，一个轻量级的头部计算表示集中的部分分配。LightGlue的整体框架如下，对网络细节进行简要介绍。

图像A和B在Transformer中使用自注意力和交叉注意力机制更新层次。每个单元基于从属于集合A,B}的源图像S的消息更新状态 $x_I\^i \\leftarrow x_I\^i + MLP(\[x_I\^im_{I \\leftarrow S\^i\])，其中\|表示向量堆叠。所有点在两张图像中并行计算。自注意力模块从同一图像S = I中提取信息。在交叉注意力单元中，每个图像从其他图像S = {A,B}/I中提取信息。消息m$ 通过注意力机制作为图像S中所有状态的加权平均值计算。

对于每个点i，当前状态首先通过不同的线性变换分解为键向量和查询向量。然后，计算点i和j之间的注意力得分。在这种情况下，图像I中的每个点查看另一张图像S中的所有点，并为每个元素计算一个键，但不计算查询。注意力得分可以用以下公式表示：

当且仅当两个点都被预测为可匹配点并且它们的相似度高于两张图像中的其他点时，点对(i, j)才有对应关系。损失函数设计如下公式(3)：

损失函数公式描述了在训练过程中如何计算损失，以推动模型LightGlue尽早预测正确的对应关系。损失函数由三部分组成，对应于正确匹配和错误匹配的点。

计算正确匹配点(i, j) 的预测对应关系的对数似然损失，其中l是层次信息，是预测分配矩阵中的元素。
计算标记为不可匹配的点属于A的预测可匹配性得分的对数似然损失，其中是点i的可匹配性得分。
计算标记为不可匹配的点属于B的预测可匹配性得分的对数似然损失，其中是点j的可匹配性得分。
匹配优化策略

在优化匹配过程中，与传统视觉惯性里程计相比，使用深度视觉特征进行特征提取和匹配可以提取和匹配更多的点对，导致错误匹配点对的数量也增加。通过减小掩码半径来提取更多的匹配特征点对。掩码用于防止特征点过于集中，从而禁止在指定半径内存在其他匹配特征点对。通过减小掩码，可以获得更多、更密集的点对，为后续的RANSAC优化提供更多点对。RANSAC算法的阈值设定为一个非常低的值，施加严格的条件以确保正确匹配，并保证准确匹配点对的质量。

在LightGlue特征匹配网络结束后，需要从匹配结果中随机选择4对特征点，并对每对特征点进行对应匹配。每对特征点在归一化平面上有对应的匹配关系：。其中，和是归一化平面上的匹配点对应关系，是同质矩阵。有8个自由度，同时具有尺度等价性。每对匹配点可以生成两个约束方程，因此具有8个自由度的同质矩阵只需4对点对应关系即可求解。为了解决这个问题，构建了一个最小二乘问题。由于尺度等价性，可以直接设置。接下来，基于同质矩阵计算第一帧图像中特征点在第二帧图像中的重投影坐标，然后比较重投影坐标与匹配特征点坐标之间的距离。如果距离小于某个阈值，则认为是正确匹配点对，否则认为是错误匹配，并记录正确点对的数量。重复多次循环计算同质矩阵和重投影像素点，每次循环后统计正确匹配点对的数量。将最大数量的正确匹配点对情况作为最终结果，去除错误匹配点对，输出正确匹配点对，从而实现特征点匹配筛选。

对于上图中的两幅图像，之前帧的误差投影到下一帧的重投影误差分别为0.2、0.25和0.3。然而，由于掩码半径较大，大多数点需要被消除。当重投影匹配阈值设为0.28时，共有11个点满足条件，这些点被标记为绿色，其重投影误差小于0.28。通过减小掩码半径，可以获得更多特征点。如图5下方的两幅图所示，绿色特征点的数量显著增加。如果阈值设为0.22，匹配精度提高，因为只有重投影误差小于0.22的点才被视为满足条件。在此阈值下，图5下方两幅图匹配时有22个点满足条件，被标记为绿色点，其重投影误差小于0.22。因此，这种优化确保提取足够的点，同时减少匹配点对之间的重投影误差。

回环检测

词袋模型是一种文本表示方法，也用于位置识别。在回环检测中，SuperVINS采用VINS-Fusion中的词袋回环检测方案，但有所不同。SuperVINS使用SuperPoint深度学习特征描述子和更高效的DBoW3。与VINS-Fusion的DBoW2相比，SuperVINS生成词袋的速度更快，并在回环检测过程中实时生成词袋向量。

要生成词袋，首先收集覆盖广泛场景的多样化图像集合，从这些图像中提取深度学习特征描述子，这些描述子将形成高度代表性的词袋。在正式的词袋回环检测中，统计当前关键帧中每个视觉词的出现次数。为了加速识别与输入图像最相似的候选项，词袋使用类似树形的层次索引结构。

这个方法允许SLAM系统在复杂和动态环境中有效地进行位置识别和回环检测，提高整体系统的鲁棒性和精度。

实验效果

总结

SuperVINS是一种利用深度学习改进VINS-Fusion的SLAM系统。在前端和回环检测中引入了SuperPoint和LightGlue，并成功在工程中实现了SuperVINS。为了训练词袋，对数据集进行了单独训练，并灵活实现了DBoW3词袋的训练。使用EuRoC数据集进行了完整的实验，并从定性和定量角度分析了原始算法和改进算法的结果。SuperVINS在各种极端场景下具有更高的定位精度和更强的鲁棒性。

#MetaUrban

UCLA出品！用于城市空间的xx人工智能仿真平台

公共城市空间的街道和广场可以为居住在城市中的市民提供各种各样的便捷服务从而适应如今丰富多彩的社会生活。各大城市中的公共空间具有非常不同且广泛的类型、形式和空间大小，包括街道、广场以及公园等各个区域。此外，它们也是日常交通和运输离不开的重要空间。这些重要的城市空间不仅为我们人类日常举办各种社会活动提供了机会，同时也为市民其提供各式各样的休闲娱乐活动。

近年来，随着机器人技术和xx人工智能技术的快速发展使得城市当中的公共区域空间不再是我们人类所独有的区域。比如：移动送餐机器人和电动轮椅已经开始与行人共享人行道、各种各样的机器狗和人形机器人最近也开始在街道上陆续出现，如下图所示。此外各种移动腿式机器人，如波士顿动力公司的机器狗和特斯拉的人形机器人也即将问世。所以在不久的将来极大概率将会出现未来的城市公共空间将由人类和xx人工智能的移动机器共享和共同居住的场景。所以，如果想要在城市空间的繁华街道上进行导航，一个至关重要的问题就是需要确保这些即将到来的移动机器的通用性和安全性。

仿真平台在实现xx人工智能的系统性和可扩展性训练以及在实际部署之前的安全评估方面发挥了至关重要的作用。然而，现有的大多数仿真模拟器主要聚焦于室内家庭环境或者室外的驾驶环境。然而，对于具有多样化布局和物体、行人变化动态复杂的城市空间的模拟探索较少。

基于上述提到的相关问题，本文提出了一个可以用于城市中的空间xx人工智能研究的组合模拟平台，称之为MetaUrban。此外，我们基于设计的MetaUrban仿真平台构建了一个大型的数据集MetaUrban-12K，该数据集包含了12800个训练场景以及1000个测试场景。同时，我们进一步创建了一个包含100个手工设计的从未见过的场景作为测试集来评估我们算法模型的泛化性。相关的实验结果表明，通过模拟环境的组合特性可以显著提高训练好的移动xx人工智能的通用性和安全性。

论文链接：https://arxiv.org/abs/2407.08725网络模型的整体架构&细节梳理

MetaUrban作为一个可以为xx人工智能在城市空间中生成无限训练和评估环境的模拟平台，在详细介绍其内部的各个技术实现细节之前，下图展示了MetaUrban模拟平台整体的生成流程。

MetaUrban模拟平台整体的生成流程

通过上图可以看出，MetaUrban可以根据提供的街区、道路以及人行道，从街区地图开始，通过划分不同的功能区规划地面布局，然后放置静态物体，最后填充动态智能体。此外，MetaUrban模拟器通过提出的三个关键核心设计来支持展示三种独特的都市空间特性。

Hierarchical Layout Generation：层级布局生成设计可以无限的生成具有不同功能区划分和物体位置的多样性布局，这对于智能体的泛化性至关重要
Scalable Object Retrieval：可扩展的目标检索利用全球城市场景数据来获取不同地方的真实世界对象分布，然后使用支持VLM的开放词汇搜索构建大规模、高质量的静态对象集。这对于专门针对城市场景的训练智能体有很大的帮助
Cohabitant Populating：通过采用数字人来丰富行人和弱势道路使用者的外观、运动和轨迹，并整合其他智能体以形成生动的共存环境。这对于提高移动智能体的社会一致性和安全性至关重要

Hierarchical Layout Generation

由于考虑到场景布局的多样性，比如街区的连接和类别、人行道和人行横道的规格以及物体的放置，对于增强经过训练的智能体在公共空间中机动的泛化性至关重要。因此，我们在层级布局生成的设计当中，首先对街区类别进行采样并划分人行道和人行横道，然后分配各种物体，这样我们就可以得到具有任意大小和地图规格的无限城市场景布局。

如下图所示，我们一共设计了5种街区种类，分别是直路、交叉路口、环形交叉路口、环形交叉路口和T型路口。

如上图中的左图所示，我们将人行道划分为四个功能区建筑，分别是建筑区、临街区、空地区和装饰区。根据不同的功能区组合，我们进一步构建了7个典型的人行道模板（如上图的右侧所示）。如果想要形成一条人行道，我们可以先从模板中采样布局，然后为不同的功能区分配比例。对于人行横道而言，我们可以在每条道路的起止处提供候选，支持指定所需的人行横道或通过密度参数对其进行采样。最后，道路、人行道和人行横道可以以地形图为基底，形成不同的地面情况。

在确定好地面上的整体布局之后，我们可以在地面上放置不同的物体。在本文中，我们将物体分为三种类别

标准基础设施：标准的基础设施可以包括电线杆、树木和标志和定期沿道路放置的物品
非标准基础设施：非标准的基础设施可以包括建筑物、盆景和垃圾箱，随机放置在指定的功能区
杂物：杂物可以包括饮料罐、袋子和自行车，随机放置在所有功能区

根据上述的相关划分，我们可以通过指定对象池来获得不同的街道风格，同时通过指定密度参数来获得不同的紧凑度。下图展示了使用采样的地面平面图和对象位置放置的不同物体。

Scalable Object Retrieval

虽然层级布局生成的设计决定了场景的布局以及放置物体的摆放位置。但是，为了使训练后的智能体能够在由各种物体组成的现实世界中导航时具有通用性，放置什么物体同样至关重要。因此，我们首先从网络数据中获取真实世界的对象分布，然后通过基于VLM的开放词汇搜索模式从3D存储库中检索目标。整个流程灵活且可扩展：随着我们继续利用更多网络数据进行场景描述并将更多3D资产作为候选对象，检索到的对象可以缩放到任意大小。

由于城市空间具有独特的结构和物体分布，因此，我们设计了一种真实世界分布提取方法来获得一个描述城市空间中频繁出现的物体的描述池，如下图所示。

具体而言，我们首先利用现成的学术数据集CityScape以及Mapillary Vistas进行场景理解，以获得90个在城市空间中出现频率较高的物体列表。然而，由于上述数据集都是闭集，目标的种类数量是有限的。我们引入了两个开集数据集Google Street以及Urban planning description，用于实现从现实世界中获得更广泛的物体分布。最后，通过结合上述提到的数据集，我们可以构建现实世界的目标类别分布。

为了解决当前的大型3D存储库中存在的数据质量参差不齐、缺少可靠的属性注释以及大部分数据与城市场景无关的问题，我们引入了一种开放词汇搜索方法来解决这些问题，如上图中的右侧子图所示。具体而言，我们首先从Objaverse以及Objaverse-XL中得到目标投影后的多视图图像，然后，我们利用视觉语言模型的编码器分别从投影图像和对象描述池中的采样描述中提取特征，以计算相关分数。然后，我们可以获得相关分数达到阈值的目标对象。这种方法让我们获得了一个城市特定的数据集，其中包含10000个现实世界类别分布中的高质量对象。

Cohabitant Populating

接下来，我们将要介绍如何通过具有不同外观、运动和轨迹的智能体填充这些静态城市场景。我们在提出的MetaUrban模拟器中提供了两种人体动作，分别是日常动作和独特动作。其中，日常动作提供了日常生活中的基本人体动态，即直立、行走和跑步。独特动作是在公共空间中随机出现的复杂动态，例如跳舞和锻炼。对于人类和其他有日常活动的智能体，我们利用ORCA模型以及PR算法来仿真他们的轨迹。

MetaUrban-12K数据集

基于我们提出的MetaUrban模拟器我们构建了MetaUrban-12K的数据集，其中包括了12800个用于训练的交互式城市场景MetaUrban-train以及1000个用于测试的场景MetaUrban-test，下图展示了我们提出的MetaUrban-12K数据集中的一些信息统计。具体关于该数据集的相关详细信息可以参考论文原文。

实验部分

定量实验部分

在实验环节中，我们设计了城市场景中的两个常见任务来验证我们提出的MetaUrban模拟器，分别是点导航以及交互式导航任务。具体而言，在点导航任务当中，智能体的目标是在静态环境中导航到目标坐标，而无需访问预构建的环境地图。在社交导航任务中，智能体需要在包含移动智能体的动态环境中到达点目标。

在所有任务当中，智能体应该避免与其它环境中的智能体发生碰撞或者超出一定的阈值，实验中的智能体行动包括加速、减速以及转向。下表展示了点导航以及交互式导航的Benchmark。

通过上表的相关实验结果可以得出一些结论

PointNav以及SocialNav任务还未得到很好的解决，基线实现的PointNav和SocialNav任务的最高成功率仅为66%和36%，这表明在MetaUrban组成的城市环境中完成这些任务非常困难。
在MetaUrban-12K数据集上训练的模型在未见过的环境中具有很强的泛化能力。在零样本测试的情况下，模型在PointNav和 SocialNav任务中仍可实现平均41%和26%的成功率。由于训练好的模型不仅可以泛化到未见过的物体和布局，还可以泛化到未见过的智能体，因此具有很好的表现性能。同时相关的实验结果也进一步的证明了，MetaUrban的组合特性支持覆盖大量复杂的城市场景，可以成功地增强训练模型的泛化能力
由于移动环境智能体的动态特性，SocialNav任务比PointNav任务更有难度。平均而言，从PointNav任务到SocialNav任务，成功率下降了15%，这表明动态智能体对训练好的智能体提出了重大挑战
在所有任务和设置当中，Safe RL模型取得了最佳表现，表明这些模型能够成功避免与行人和物体发生碰撞。然而，成功率会相应降低，这表明需要平衡复杂城市场景中智能体的安全性和有效性。

此外，为了评估使用MetaUrban生成的数据训练的智能体的泛化能力，我们比较了四种设置的成功率，相关结果汇总在下图的子图(a)中。设置1和设置2分别是在MetaUrban-train数据集上进行训练，在MetaUrban-test测试集和MetaUrban-unseen数据集上进行测试的结果。设置3和设置4是在MetaUrban-finetune上直接训练的结果，并在MetaUrban-finetune上对MetaUrban-train上的预训练模型进行微调的实验结果。

我们为了评估MetaUrban组合架构的扩展能力，我们在不同数量的生成场景上训练模型，如下图的子图(b)所示，随着我们加入更多场景进行训练，性能从12%显著提高到46%，证明了MetaUrban强大的扩展能力。

下图中的子图(c)和(d)展示了我们为了评估静态物体密度和动态环境智能体的影响，我们分别评估了它们在PointNav和 SocialNav任务中的不同比例，通过实验结果可以看出，随着静态物体和动态智能体的密度增加，训练和测试的成功率都会急剧下降，这表明智能体在面对城市场景中拥挤的街道时面临挑战。

定性实验部分

下图展示了我们提出的MetaUrban模拟器一些生成结果的可视化，详细的介绍请参考我们论文中的附录部分。

我们设计了五种典型的街道街区类别，分别是直路、弯道、交叉路口、T 型路口和环形交叉路口，可视化结果如下图所示
生成的静态场景下的可视化样例，对于每一行我们选择了四个视角来进行可视化
生成的动态场景下的可视化样例

结论

在本文中，我们提出了一种新颖的组合模拟器MetaUrban用于促进城市场景中的xx人工智能和机器人研究相关方向的研究。提出的MetaUrban模拟器可以生成具有复杂场景结构和行人及其他移动智能体多样化运动的无限城市环环境，希望本文提出的方法可以促进开源模拟器社区的进一步发展。

#Mobileye，越来越难了

Mobileye面临的，可能是一个越来越难的未来。

刚刚发布的财报中，Mobileye营收规模4.39亿美元，同比下降3%，净亏损8600万元，较上年同期增加超过2倍，调整后净利润7600万美元，同比也下降44%。

关键数据指标，并不理想。

尽管，由于Mobileye客户此前存货已经消耗的差不多了，第二季度整体情况较上个季度有显著提升，但Mobileye还是下调了包括营收、出货量以及经营利润在内的全年关键指标预期。

下调的理由是，近期的市场环境充满挑战性，这主要"与中国有关"。

简单来说，就是Mobileye分析，包括中国这个关键市场在内的全球主要主机厂，下调了出货量预期。

不过，Mobileye也在财报会上透露了一点点好消息，关于其下一代解决方案，基于EyeQ 6芯片开发的Mobileye Brian 6自动驾驶。

但这套系统对于Mobileye业务大规模的增益，要等到2026年，似乎有点远、有点不确定。

01 平淡的财务数据与下调的预期

先简单梳理一下Mobileye在今年第二季度的经营情况。

Mobileye部分财物信息

**财报显示，今年第二季度，Mobileye整体营收规模为4.39亿美元，同比下降3%；不过较上个季度的2.39亿美元增加了84%。**

对此Mobileye在财报中解释，与第一季度相比，一级客户手中的过剩库存消耗减少（这是由于在疫情期间下游客户为针对不稳定的芯片产业链而囤积的库存）。

同时Mobileye CEO Amnon Shashua还在财报会中表示，此前困扰其经营情况的客户库存问题已经基本得到了解决，这带来的一个影响是，Mobileye出货量的提升，与今年第一季度的360万套相比，Mobileye的EyeQ系列出货量强势增长110%，也就是达到756万套。

但与去年同期相比，这个出货量水平应该还没有完全恢复。Mobileye财报显示，其与EyeQ SoC相关的营收较去年同期减少10%。

当然不完全是坏消息，Mobileye在今年第二季度的平均系统价格，由去年同期的51.7美元上升到到第二季度的54.4美元。

**单价提升主要归功于高溢价的产品有所增长，比如Super Vision系统。可想而知，这与极氪的强势销量有很大关系。**

毛利率方面，今年第二季度为48%，较去年同期下降1.73个百分点。

Mobileye支出情况

在支出方面，Mobileye第二季度的运营支出总额为3.03亿美元，其中研发支出为2.56亿美元，较去年同期的2.11亿美元增加21.3%，占到支出的大头。

**最终落到盈利层面，财报显示，第二季度Mobileye净亏损8600万元，较上年同期增加超过2倍，调整后净利润7600万美元，同比也下降44%。**

整体来看，在过去几个月影响Mobileye经营情况最大的问题，过剩库存已经得到了基本解决，大部分的营业指标也基本恢复到去年同期的水平。

但是，在今年的全年预期上，Mobileye给出了一个不那么乐观的数字。

**Mobileye表示，预计今年全年EyeQ芯片的出货量将在2800万-2900万套；Super Vision系统的出货量预计为11万-13万套。预计全年营收16亿-16.8亿美元；调整后营业利润1.52亿-2.01亿美元。**

从销量到基本的财务数据，基本都出现了比较低预期情况。

作出如此的预期，主要出于几点考虑，基本都围绕中国市场：

首先是全球多家OEM大幅下调了今年下半年的产量预期；其次中国市场的主机厂今年下半年的订单，与上一次这些客户所表示的有所下降；最后则是除了中国之外的其他全球主要市场，大批量推出ADAS系统的延迟也将是一个不利因素。

Mobileye8月1日股价出现大跳水

预期不及此前市场的期待，Mobileye的股价也在最近几日出现大幅跳水。8月1日财报发布当天，Mobileye开盘报18.28美元股，下跌超过12%，在随后的8月2日，股价仍在继续下跌，截止到8月2日收盘已不足16美元/股。

02 Mobileye财报会，剧透未来技术

或许是给不太正面的财报数据来点好消息对冲一下，在财报会上，Amnon Shashua带来了Mobileye技术层面的一些剧透。

Mobileye首席执行官Amnon Shashua

具体来说，就是Mobileye Brain 6，一套基于EyeQ6的软件解决方案，在Amnon这里被看作是Mobileye自动驾驶技术的重大进步与革新，按照计划，这套方案将在今年12月进行披露。

据Amnon透露，Brain 6从几年前开始开发，一直是EyeQ6产品线的核心。这套混合AI骨干网络旨在解决大规模自动驾驶的复杂性和需求。

Amnon表示，在性能方面，Brain 6应用不同的生成式AI网络组合，应对自动驾驶的复杂情况，比如长尾问题和输入偏差泛化误差权衡，通过这种方法，Brain 6可以确保足够的性能和稳定性。

**最新的进展是，今年第二季度，Mobileye已经开始了在EyeQ6平台上大规模线上测试和模拟。**

**另外，这套方案也符合当下市场所追求的性价比要求。具体来说，Brain6 与 EyeQ6 的协调，可以使客户能够以MSRP（制造商建议零售价，这里可以简单类比或倒推为成本的概念）的50%提供无需眼睛监控（自动驾驶）产品。**

同时，这套基于纯视觉的方案，采用模块化架构，可以适配单独的感知层以及各类传感器的配置，以此满足不同主机厂和不同车型的搭载需求。

据了解，Brain 6的数据来源于与Mobileye合作的全球各大主机厂多年收集的数百PB数据支持，以此应对自动驾驶的复杂场景，并在全球不同地区保证统一的性能。

只言片语的技术讲解并不具备连贯性，所以Brain 6具体的技术细节要等到今年年底才能全部揭开。

Mobileye REM地图方案

按照我们的理解，不出意外的话，这将是一套纯视觉为基础的自动驾驶技术，同时Mobileye还透露该方案会有众包高精地图的参与。

不过，会不会采用当下比较火热的端到端大模型依然很不好说，毕竟在此之前，Mobileye在多次发声中，都始终对端到端持保留态度。

而Brain 6软件方案大规模上车产生增益，Mobileye将时间定在了2026年。

03 新技术，还是太慢了？

2026年，听起来还相当遥远，与Mobileye一贯给人的印象一样，总是慢人一步。

Mobileye产品规划

对比此前的EyeQ5和最近的EyeQ6，无一不是如此。尤其是算力层面，到EyeQ 5也不过24TOPS，同期英伟达的主推产品OrinX已经超过200TOPS。

后续的EyeQ6系列，最高176TOPS的算力，依然是一步慢、步步慢。

**软件层面也是如此，至少在当下，Mobileye还是上个阶段规则代码或者小模块的形式。至于竞争者，不管端到端是否会成为自动驾驶终极的解决方案，但至少已经有大部分玩家开始了尝试。**

小规模的落地也在近期出现。

至于效果，有业内人士告诉《赛博汽车》从理论上来讲，过去多个小模型层层传递的做法，天花板会越来越逼近，不管从技术还是成本上，都不会是理想的方案。

端到端大模型，从我们的实际体验来看，至少现在能看到的潜力会比上一代更优。

**Mobileye的新方案是否会比端到端更优，现在不好评论，而大规模验证，如Mobileye所言，要等到2026年。**

**但现在，Mobileye面临的已然是一个群狼环伺的局面。一方面大环境中短期的不利好；另一方面，在ADAS中低算力的市场上，Mobileye要面对的对手，已经越来越多了。**

比如拿下大算力市场又盯上下沉市场的英伟达，以及同样以中低算力见长的高通、德州仪器，和国内的地平线之类的厂商。

内外都说不上乐观，Mobileye的2026年，是否太拖沓了点？

#SA4D

首个基于4DGS分割任何事物的框架！

华科&华为&上交团队最新的工作《Segment Any 4D Gaussians》，主要应用于4D动态场景的分割任务，结合4DGS效果很惊艳~

建模、理解和重建现实世界在XR/VR中至关重要。最近3DGS方法在建模和理解3D场景方面取得了显著成功。同样，各种4D表示已经证明了捕捉4D世界动态的能力。然而，很少有研究关注4D表示中的分割。本文提出了Segment Any 4D Gaussians（SA4D），这是基于4D Gaussian分割4D数字世界中anything的首批框架之一。在SA4D中，引入了一个高效的时间identity特征场来处理高斯伪影，有可能从噪声和稀疏输入中学习精确的identity特征。此外，还提出了一种4D分割细化过程来消除伪影。我们的SA4D在4D高斯中在几秒钟内实现了精确、高质量的分割，并显示了去除、重新着色、合成和渲染高质量任何mask的能力。

项目主页：https://jsxzs.github.io/sa4d/

总结来说，本文的主要贡献如下：

我们重新表述了4D分割的问题，并提出了Segment-Any 4D Gaussians（SA4D）框架，以高效地将SAM提升到4D表示。
时间identity特征字段包括一个紧凑的网络，该网络从噪声特征图输入中学习高斯人的身份信息，并缓解高斯伪影。分割细化过程还提高了推理渲染速度，使场景操作更简单、更方便。
SA4D使用RTX 3090 GPU在10秒内实现快速交互式分割，具有照片级逼真的渲染质量，并无缝实现高效的动态场景编辑操作，例如删除、重新着色和合成。