51c自动驾驶~合集38

我自己的原文哦~https://blog.51cto.com/whaosoft/12358456

#GaussianPretrain

万能3D高斯预训练表示!爆拉3D检测、Occ、高精地图等四大任务!

受Tesla的技术的推动,越来越多的厂商开始走"纯视觉"的路线,多数方案还是集中在从多视图输入图像中提取鸟瞰图(BEV)特征,来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位,但是它们非常依赖精确的GT标注,成本高、难度大往往成为一个比较显著的瓶颈。相反,大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的​​自监督预训练​​技术,其核心思想是,通过利用精心设计的代理任务,从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息,要么无不能学习到详细的纹理信息。

3D Gaussian Splatting(3D-GS)以点云的形式表示,为场景重建提供了强大的表示,通过位置、颜色、旋转、缩放和不透明度等属性编码几何和纹理信息。正是受到3D-GS在有效场景表示和Masked autoencoders(MAE)在2D图像自监督学习中的成功的启发,作者提出了一种新颖的预训练方法GaussianPretrain,它结合了3D-GS和MAE方法,用于3D视觉学习中的预训练任务。

作者的方法包括两个关键创新:

  • LiDAR深度指导掩码生成器。为了提高效率,作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别,并进一步过滤,只包括那些具有LiDAR深度监督的补丁。
  • 基于射线的3D高斯锚点指导策略:对于每个LiDAR投影像素,执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习,并预测相关属性(例如,深度、不透明度)。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。
  • 论文链接:https://arxiv.org/pdf/2411.12452

相关工作

自动驾驶中的预训练

使用对比学习和掩码信号建模来捕获语义和纹理信息,在2D图像上的预训练已经取得了巨大的成功。但是,自动驾驶的视觉预训练需要准确的几何表示。目前有的研究,比如,UniScene和OccNet利用占用预测进行预训练,而ViDAR 从历史帧图像预测未来的LiDAR数据。尽管这些方法在捕获几何信息方面是有效的,但却无法学习详细的纹理信息。相反,像Self-OCC 、UniPAD 和MIM4D 这样的方法使用NeRF 来渲染RGB图像和深度图,学习了纹理但几何信息有限。OccFeat 在占用预测期间使用知识蒸馏从图像基础模型转移纹理信息,但会产生高昂的预训练成本。相比之下,作者的工作引入了3D Gaussian Splatting进行自动驾驶的视觉预训练,有效地捕获纹理和几何信息,来解决这些限制。

从NeRF到3D-GS

Neural Radiance Fields (NeRF) 通过隐式表示场景的颜色和密度,参数化多层感知机(MLP)结合体积渲染技术,实现了令人印象深刻的渲染质量。后续工作已成功将NeRF扩展到各种任务,但是这些工作都需要针对每个场景来优化,由于优化和渲染速度慢,限制了它们的效率。相比之下,3D Gaussian Splatting 通过各向异性高斯显式表示场景,通过可微光栅化实现实时渲染。然而,由于依赖于特定场景的优化,它倾向于过度拟合特定场景。最近的方法通过预测高斯参数的前馈方式来缓解这个问题,这样就不需要针对每个场景来优化了。例如,GPSGaussian 从图像对执行极线校正和视差估计,依赖立体图像和真实的深度图。同样,Spatter Image 专注于从单一视图重建单个对象的3D结构。这两种方法因为效率低,仅限于对象重建,并且依赖于特定的输入格式,如图像对或单一视图。在本文中,作者将3D Gaussian Splatting扩展到视觉预训练任务中,通过在3D空间中预设固定位置的3D高斯锚点,克服了与视图数量和深度图需求相关的问题,标志着3D-GS的新应用。

3D Gaussian Splatting

3D GS由于其高效的光栅化设计和显式表示,在场景表示、编辑和新视角合成方面展现出强大的能力。通常,场景由一组高斯组成,这些高斯通常从重建方法或LiDAR数据中得到的点云初始化而来。每个高斯被赋予可学习的属性,包括​​方向、颜色、位置、尺度和不透明度​​。在渲染过程中,这些3D高斯被使用可微光栅化投影到2D图像平面上。对于场景表示任务,通过将渲染输出与真实图像进行监督,迭代优化高斯属性。对于3D空间中的一个高斯点,它被定义为

其中和分别指的是高斯的均值中心和3D协方差矩阵。投影到2D后,有2D协方差矩阵,其中视图变换由表示,雅可比矩阵对应于变换的线性近似。最后,像素颜色是从N个有序高斯中渲染出来的,混合方程为

其中是用球谐表示的高斯颜色,是这个高斯对当前像素的不透明度影响。是透明度。​

方法论

图3展示了作者GaussianPretrain的结构,一个使用3D-GS表示进行视觉预训练的简单、创新且高效的框架。给定带有有效掩码补丁的多视图图像,作者的目标是通过解码每个场景的高斯参数 来重建RGB、深度和占用,其中、、和分别是3D高斯的位置、不透明度、协方差和颜色信息,K表示最大高斯锚点的数量。

LiDAR 深度引导掩模生成器

受MAE 的启发,作者对多视图图像应用随机补丁掩码,表示为M。此外,稀疏卷积被用来替代图像主干中的传统卷积,如SparK 的实现增强了性能和泛化能力。为了计算效率,作者只关注从有限的一组有效掩码补丁中学习高斯参数。此外,作者通过检查LiDAR点是否在某个深度范围内来双重检查掩码区域。

如图4所示,如果一组点投影到图像中的掩码补丁,并且它们的深度落在[a, b]的范围内,掩码区域将被标记为有效,。这种策略确保作者的模型集中于前景,避免了对天空等不相关背景元素的不必要关注。

基于射线引导的 3D 高斯锚点

为了使模型能够同时理解场景的几何和纹理信息,作者引入了一系列在3D空间中的可学习高斯锚点。这些锚点引导从3D体素网格中派生的高斯属性的学习,被视为体积LiDAR点。考虑由表示的LiDAR投影像素,它对应于从相机延伸到3D空间的射线R。沿着这个射线,作者采样D个射线点,其中是沿射线的相应深度。每个在有效掩码区域M′中的采样射线点p可以立即反投影到3D空间,使用投影矩阵摘要作为3D高斯锚点,。这种策略不仅消除了完整图像渲染的需要,显著减少了内存使用,而且还实现了RGB、深度和占用的同时重建。

体素编码

在大多数感知任务中,通常使用视图变换器生成鸟瞰图(BEV)特征,然后用于后续的下游任务。值得注意的是,作者的预训练方法与任何类型的视图变换器兼容。在作者的基线模型UVTR 中,采用lift-splat-shoot (LSS)方法,并将通道维度扩展以包含高度维度,产生3D体素特征,其中C、H、W和Z分别代表通道数以及沿x、y和z轴的维度。此外,对于每个LiDAR投影像素,作者执行射线投射操作,从3D体素网格V中提取Nt个采样目标体素,其中存在高斯锚点。

Gaussian 参数解码

如图3所示,通过将概念化为3D高斯锚点,这种统一表示使作者能够高效地捕获高质量、细粒度的细节,提供对场景更全面的了解。特别地,每个3D高斯锚点由属性特征化,所提出的高斯映射G定义为:

其中x是3D空间中高斯锚点的位置,、、、分别代表颜色、旋转、缩放和不透明度的高斯参数图。由于多视图图像中的重叠区域,像素级的高斯参数预测可能会导致由于重叠splats引起的歧义。相比之下,作者认为直接从3D体素特征预测高斯参数是更好的选择。给定体素特征V和中心坐标x,作者使用三线性插值来采样相应的特征f(x)如下:

高斯参数图由预测头生成,定义为h = MLP(·),由多个MLP层组成。每个预测头专门设计用于根据采样的特征f(x)回归特定参数。对于颜色和不透明度参数,作者使用sigmoid函数进行范围[0,1]的回归,如下所示:

其中、分别表示颜色和不透明度的头。在用于形成高斯表示之前,旋转图应该被归一化,因为它表示一个四元数,以确保单位大小,而缩放图需要激活以满足其范围,如下所示:

其中、分别表示旋转头和缩放头。

通过重构信号来监督

为了在MAE策略下更好地重建掩码区域,作者使用从高斯表示派生的不同重建信号来监督学习过程。具体来说,RGB、深度和占用信号是基于有效掩码补丁中预测的高斯锚点参数解码的。

RGB Reconstruction. 由于作者不需要重建任意视角的图像,作者直接预测固定视点的RGB,而不是使用球谐系数。在预测高斯锚点参数后,作者使用GS中的相关方程来解码颜色信息,以渲染每个目标重建像素的图像RGB值图,表示为。具体来说,方程中的值被预测的RGB替换。

Depth Reconstruction. 受NeRF风格体积渲染中的深度实现启发,作者以类似于RGB重建的方式整合每个splat的深度。作者从3DGS参数近似每个像素的z深度。该过程如下:

其中n是高斯锚点的数量,是第i个高斯锚点在视图空间中的z深度坐标,实现了高效的深度渲染,计算开销最小。是图像的深度图。

Occupancy Reconstruction. 3DGS点的不透明度属性自然适用于视觉感知,特别是占用预测任务。与GaussianFormer不同,后者使用不透明度进行语义逻辑,作者直接将不透明度解释为占用位置的指示。完全不透明的高斯锚点表示在x处存在被占用的位置。形式上,对于每个目标体素,作者在体素内的高斯锚点中取最大不透明度值来表示占用概率,表示为。这种直接将不透明度映射到占用的方法,为利用3D Gaussian Splatting进行占用预测提供了自然而有效的方式。

其中k是目标体素中的高斯锚点数量。

Loss Function. 总结来说,整体预训练损失函数由颜色损失、深度损失和占用损失组成:

其中 , 是每个射线的GT颜色和深度。 表示占用的GT,如果它包含至少一个LiDAR点,则被认为是占用的。 和 分别是目标像素和目标体素的计数。​

实验结果

作者使用nuScenes数据集来训练和验证。

不同任务上的结果

3D Object Detection. 作者在表1中比较了GaussianPretrain与以前SOTA方法的结果。以UniPAD作为基线,该基线是在UVTR-C/StreamPETR上实现的。作者的方法在NDS和mAP上分别超过了UniPAD-C 0.8和0.7个百分点。与StreamPETR相比,改进进一步获得了0.9 NDS,达到了48.8和38.6在NDS和mAP上,达到了没有任何测试时增强的现有最先进方法的水平。

HD Map Construction. 正如表2所示,作者评估了其训练模型在nuScenes数据集上对HD地图构建任务的性能。这项任务要求模型理解道路拓扑和交通规则,需要对场景的纹理信息有详细的了解。作者使用MapTR 来评估GaussianPretrain捕获这些信息的能力。得益于作者有效的高斯表示预训练,MapTR在mAP上实现了1.9%的改进。

3D Occupancy Prediction. 高斯锚点的不透明度属性自然适合占用预测任务。在表3中,作者在Occ3D-nuScenes上进行了3D占用预测的实验。表中报告了SOTA方法的性能,这些性能记录在Occ3d 的工作中。作者在BEVFormer 和PanoOCC上实现了作者的框架,比BEVFormer提高了0.6% mIoU的性能,比SOTA方法PanoOCC进一步提高了0.8% mIoU。这也突出了作者预训练图的有效性。

预训练方法上的结果

作者以在ImageNet上预训练的UVTR-C作为基线,并在表4中比较了GaussianPretrain与以前的预训练方法。

  1. DD3D:利用深度估计进行预训练。
  2. SparK:将MAE纳入预训练方法。
  3. FCOS3D:在预训练阶段使用3D标签进行监督。
  4. UniPAD:基于NeRF的渲染预训练范式。

作者的GaussianPretrain,将3D-GS整合到视觉预训练中,大大提高了7.1%的NDS和9.0%的mAP。它优于所有其他方法,分别达到了32.0 NDS和32.3 mAP。

消融实验

GaussianPretrain's losses: 为了验证每个重建信号的有效性,作者在UVTR和BEVFomer上进行了3D检测和占用任务的实验。RGB损失引导模型从重建图像中学习场景的纹理信息,而深度损失鼓励模型在2D平面上学习几何信息,尽管这本身不足以捕获完整的3D几何信息。相比之下,占用损失监督模型在3D空间内学习全面的几何信息。如表7所示,每个组成部分都做出了积极贡献,当全部使用时,取得了最佳结果。

Gaussian Anchor Numbers: 作者进行了消融研究,以检查不同数量的高斯锚点对性能指标的影响,如表8所示。在达到1024个射线时,观察到最显著的增益,超过这个数量,相对于额外的资源需求,改进较小。

Efficiency & consumption: 基于NeRF的方法通常受到慢收敛和高GPU内存消耗的困扰。相比之下,作者的基于3D-GS的方法提供了可比的渲染质量,并且具有更快的收敛速度和更优越的效率,用于自由视图渲染。在表9中,作者比较了NeRF基础的UniPAD和作者的解码器模块之间的效率和内存消耗。值得注意的是,GaussianPretrain明显减少了约30%的内存使用,并减少了大约40.6%的延迟,同时保持了相似的参数大小。

Supervised Pre-training: 作者展示了GaussianPretrain在减少对注释的依赖方面的有效性,通过微调UVTR,从完整数据集到1/4子集的范围。如图5所示,作者的方法在只有一半监督样本的情况下超过了基线5.5% mAP,即32.0% mAP vs. 26.5% mAP。这表明GaussianPretrain可以有效利用未标记数据来补偿减少的监督,即使在注释较少的情况下也能提高性能。

Different Conditions: 作者在表6中报告了在不同距离、天气条件和光照情况下的性能,这得益于作者在UVTR-C上有效的预训练,GaussianPretrain实现了卓越的鲁棒性和整体最佳性能。​

总结

在这项工作中,作者首次将3D Gaussian Splatting技术引入视觉预训练任务。作者的GaussianPretrain在各种3D感知任务中展现出显著的有效性和鲁棒性,包括3D目标检测、高清地图重建和占用预测,同时具有效率和较低的内存消耗。不过,当前框架仍然存在某些局限性。特别是,它没有明确地结合时间或多模态信息,这两者对于许多自动驾驶应用至关重要。在未来的工作中,作者计划扩展GaussianPretrain以利用这些信息,并进一步提高其性能。

#具身智能训练数据集

具身智能训练要求智能体通过与环境的物理交互来学习智能行为,数据集对于具身智能的训练效果有着至关重要的影响,提高训练效果的根源在于使用丰富多样的数据集,让具身智能体接触到各种不同的情况,从而学习到更广泛的技能和应对策略。然而,数据集的数据采集过程复杂且成本高昂,数据标注工作往往需要专业知识和大量的人工劳动。

ARIO数据集 - 机器人控制

数据集链接:https://openi.pcl.ac.cn/ARIO/ARIO_Dataset

项目链接:https://imaei.github.io/project_pages/ario/

论文链接:https://arxiv.org/pdf/2408.10899

ARIO(All Robots In One)是鹏城实验室建立的大规模统一数据集,旨在解决现有数据集在开发多功能通用实体智能体方面的不足。ARIO支持 5 种感官模态,基于时间戳对齐多模态数据,采用统一数据架构,有统一配置,增强数据多样性,涵盖多种数据来源:(1)从真实场景收集:使用 Cobot Magic 平台(双手机器人移动操作平台)、Cloud Ginger XR - 1 平台(5G 轮式人形云机器人)。(2)从模拟平台生成,包括Habitat 的对象导航任务、MuJoCo 的操作任务、SeaWave 的操作任务。(3)从开源数据集转换,基于 Open X - Embodiment 数据集、基于 RH20T 数据集、基于 ManiWAV 数据集。

ARIO 数据集可用于训练具身智能体,以提高它们在各种任务和环境中的性能和适应性。ARIO拥有多模态特性,包含 2D 和 3D 视觉数据、触觉、声音和文本形式的数据,使得开发者可以在多种任务上进行模型训练;解决了多个现有数据集之间数据结构不一致的问题,显著减少前期数据清洗和预处理的时间。

G1数据集 - 人形机器人操作

开源数据采集的链接:https://github.com/unitreerobotics/avp_teleoperate

开源学习算法的链接:https://github.com/unitreerobotics/unitree_IL_lerobot

开源数据集和模型的链接:https://huggingface.co/UnitreeRobotics

宇树科技公布了开源 G1 人形机器人操作数据集,用以训练人形机器人,适配多种开源方案。宇树 G1 人形机器人操作数据集具有以下特点:(1)多样化的操作能力展示:通过演示视频可以看到,G1 人形机器人能够完成拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并将其放入黑色长方形容器中等复杂操作,显示出高度的灵活性和实用性。(2)数据采集方式创新:使用苹果的 Vision Pro 对 G1 进行遥操作控制。(3)丰富的数据维度:数据集中的图像分辨率为 640×480,每个手臂和灵巧手的状态及动作维度为 7。目前包含拧瓶盖倒水、叠三色积木、包装摄像头、存储物品、双臂抓取和放置等五大类操作的数据集。

RT-1数据集 - 机器人操作

论文链接:https://robotics-transformer.github.io/assets/rt1.pdf

开源链接:https://github.com/google-research/robotics_transformer

项目主页:https://robotics-transformer2.github.io/

RT-1 数据集是用于训练和评估机器人学习模型 RT-1 的数据集,旨在构建一个能够处理多种任务、对新任务和环境具有良好泛化能力的机器人系统。数据收集使用 13 个来自 Everyday Robots 的移动机械臂,在三个厨房环境(两个真实办公室厨房和一个训练环境)中收集数据。数据由人类提供演示,并为每个情节标注执行任务的文本描述,指令通常包含动词和描述目标对象的名词。

RT-1 能够执行超过 700 个语言指令,根据指令中的动词将其分组为不同技能,如拾取、放置、打开和关闭抽屉、取放抽屉中的物品、直立放置细长物品、推倒物品、拉餐巾和打开罐子等。涵盖多种行为和对象,通过增加 "pick" 技能的对象多样性来提升技能的泛化能力,并在实验中扩展了技能,包括一些现实的长指令任务,如在办公室厨房场景中的复杂操作。

RT-1 包含超过 130k 个机器人演示,这些演示构成了 744 个不同的任务指令,涉及多种技能和大量不同的对象。数据集中的技能和指令涵盖了多个领域,如物体操作、环境交互等,以支持机器人在不同场景下的任务执行和学习。

QT-Opt - 抓取

论文链接:https://arxiv.org/pdf/1806.10293

开源链接:https://github.com/quantumiracle/QT_Opt

QT-Opt 数据集是为训练机器人的视觉抓取策略而收集的大规模数据集,通过 7 个机器人在四个月内收集了超过 580k 次真实世界的抓取尝试,旨在让机器人学习通用的抓取技能,能够在未见过的物体上实现高成功率的抓取。

在收集数据集时,使用 7 个 KUKA LBR IIWA 机械臂,每个机械臂配备一个两指夹爪和一个位于肩部上方的 RGB 相机来收集数据。数据收集过程中,为了使模型能够学习到通用的抓取策略,使用了多样化的物体,这些物体在训练过程中定期更换,每 4 小时更换一次(在工作时间内),夜间和周末则保持不变。收集的数据包括机器人的相机观察(RGB 图像,分辨率为 472x472)、夹爪状态(开或关的二进制指示)以及夹爪相对于地面的垂直位置等信息。数据收集总共耗时约 800 机器人小时,数据量达到 4TB,足以训练出具有高成功率的抓取策略模型。

BridgeData - 机器人学习与泛化

论文链接:https://arxiv.org/pdf/2308.12952

项目主页:https://rail-berkeley.github.io/bridgedata/

BridgeData V2 是一个用于大规模机器人学习研究的数据集,旨在促进机器人学习方法的发展,包含丰富的机械臂操作行为数据,以支持多种任务和环境下的技能学习与泛化研究。数据集包含 60,096 条轨迹,其中 50,365 条专家演示轨迹和 9,731 条脚本策略收集的轨迹。涵盖 13 种技能,包括基础操作如拾取和放置、推动、重新定向物体,以及更复杂的操作如开门、关门、抽屉操作、擦拭表面、折叠布料、堆叠积木、扭转旋钮、翻转开关、转动水龙头、拉链操作和使用工具清扫颗粒状介质等。这些技能适用于多种环境和物体,确保学习到的技能具有通用性。包含 24 种环境,如厨房、水槽、桌面等,以及 100 多种物体。环境和任务的多样性使数据集能够支持多种学习方法的评估和研究,有助于机器人学习在不同场景下的任务执行和技能泛化。

TACO - RL - 长时域操作

论文链接:http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf

项目链接:http://tacorl.cs.uni-freiburg.de/

数据集链接:https://www.kaggle.com/datasets/oiermees/taco-robot

TACO - RL 使用的数据集是通过在模拟和真实环境中对机器人进行远程操作收集的,包含机器人与环境交互的状态 - 动作序列,用于训练分层策略以解决长时域机器人控制任务,支持机器人从无结构的游戏数据中学习通用技能并实现复杂任务的执行。

收集的数据为无结构的游戏数据,未针对特定任务进行标记,包含多种机器人操作行为,如推动、抓取、放置物体,操作抽屉、滑动门和与 LED 按钮交互等,具有丰富的多样性和复杂性。数据集用于训练低层级策略,通过对无结构数据进行自动编码,学习从潜在计划到动作的映射,提取一系列基本行为原语。高层级策略通过离线强化学习(RL)利用后见之明重标记技术进行训练。

CLVR - 遥控

数据集链接:https://github.com/clvrai/clvr_jaco_play_dataset

CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集,共 14.87 GB,由南加州大学和 KAIST 的研究团队发布,它提供了 1,085 个遥控机器人 Jaco2的片段,并配有相应的语言注释。

FurnitureBench - 长时域操作

论文链接:https://arxiv.org/pdf/2305.12821

项目链接:https://clvrai.github.io/furniture-bench/

数据集链接:https://clvrai.github.io/furniture-bench/docs/tutorials/dataset.html

FurnitureBench是一个用于测试真实机器人复杂长时域操作任务的数据集。数据集聚焦于家具组装这一复杂长时域操作任务,其任务层次结构长,涉及家具部件的选择、抓取、移动、对齐和连接等步骤,平均任务时长在 60 - 230 秒(600 - 2300 低层级步骤)。任务要求机器人具备多种复杂技能,如精确抓取(不同家具部件抓取姿态各异)、部件重定向(通过拾取放置或推动实现)、路径规划(避免碰撞已组装部件)、插入和拧紧(精确对齐并重复操作)等。

通过使用 Oculus Quest 2 控制器和键盘对机器人进行远程操作来收集数据,历时 219 小时,涵盖八个家具模型。针对不同家具模型和初始化水平(低、中、高)收集了不同数量的演示数据。每个演示的时间步长因任务长时域性质而在 300 - 3000 步左右。数据收集过程中,通过使用不同颜色温度的单光面板并改变其位置和方向,以及每集随机化前视图相机姿势来增加数据多样性。

Cable Routing - 多阶段电缆布线

论文链接:https://arxiv.org/abs/2307.08927

项目链接:https://sites.google.com/view/cablerouting/home

数据集链接:https://sites.google.com/view/cablerouting/data

该数据集是为训练机器人的电缆布线策略而收集的,用于支持分层模仿学习系统,使机器人能够学习执行多阶段电缆布线任务,应对复杂的电缆操作挑战。数据集中包含了多种电缆形状、夹取位置和方向的变化,以及不同数量夹子(一夹、两夹、三夹)的布线任务数据,有助于训练出具有泛化能力的策略。

针对单夹电缆布线任务,通过人类专家远程操作机器人在不同位置和夹取方向上执行任务来收集数据。共收集 1442 条夹取轨迹,每条轨迹时长约 3 - 5 秒,包含约 20 个时间步,每个时间步包含机器人相机图像(四个)、机器人配置状态向量和人类远程操作员的指令动作。在训练单夹布线策略和其他原语后,通过人类专家按顺序触发原语以执行完整的多阶段电缆布线任务来收集数据。在一夹、两夹或三夹的场景下,电缆初始状态为平放在桌子上的任意形状,专家输入原语,机器人执行,同时记录整个轨迹的感官信息。

RoboTurk - 模仿学习

论文链接:https://arxiv.org/abs/1811.02790

项目链接:https://github.com/RoboTurk-Platform/roboturk_real_dataset

数据集链接:https://roboturk.stanford.edu/dataset_real.html

ROBOTURK 数据集是通过众包平台收集的用于机器人学习任务的大规模数据集,旨在解决机器人模仿学习中数据收集困难的问题,使机器人能够从大量的人类演示中学习操作技能,应对复杂的操作任务。数据涵盖了不同用户在多种任务和操作条件下的演示,包括不同物体的操作(如 lifting 任务中的立方体、picking 任务中的各种物品、assembly 任务中的螺母等)以及不同的操作场景,有助于训练出具有泛化能力的机器人策略。

#量产之问

1.大佬,想问一下有没有通过视觉大模型来做行为预测的工作呀?

回答1:应该是有的,有类似occworld的工作,九月份有个综述可以看下【自动驾驶中的大模型!】全面概...

2.请问,用多模态大语言模型去挖掘带有目标物体(文本 prompt )的图片,现在推荐的预训练大语言模型或者框架吗?我目前能够 到想到 base model 的是 sam 和 clip 结合。但不知道对小目标的精确度性能如何。

回答1:大模型我还不太熟悉,我理解你是想做类似grounding的任务,小目标可以搜下arxiv,按照小目标的关键词搜索下

3.对于NOA功能怎么确定域控里跑的是啥地图?HD/SD/HQ map?

回答1:至少可视化界面上你看不出来。。。只能猜吧?可以这样,去一些hard case场景看看,或者没有高精地图的地方看看(不太可能采集到的),看看效果咋样,如果效果很差,说明依赖高精

回答2:也不能单纯以来高精,现在无图的效果基本上可以和有图对齐了。域控里面跑的啥地图要找下游规控问一下,SD这种信息都是图商提供的,算法怎么用 下游怎么用都不是固定的模式

回答3:可视化界面可以看出来是不是HD,对地面标志(左转,右转,掉头)的识别如果在跳动,说明不是HD,是靠感知的呲牙

4.大佬,数据处理(大模型自动标注)和三维重建那个方向更值得选?

回答1:我觉得都可以,算是上下游关系了,重建后再去做一些自动标注。个人觉得如果能接触到大模型相关的知识,做自动标注方向吧,接触的训练模型方面更多一些,三维重建需要很多SLAM,Nerf还有3DGS知识,看你背景如何。

5.有协同检测数据集opv2v、v2xset的网盘链接吗,从官网下载流量不够....

回答1:去opendatalab搜索下

6.有人会魔改pytorch源码吗?pytorch源码目录繁多,根本搞不清都是哪些做用啥的,有人知道要魔改一个算子的话,需要从哪里入手吗?

回答1:魔改算子?这个有点难,比如采样插值等等,你要看底层代码,然后修改完之后怎么封装等等

回答2:官方文档有写如何自定义算子,你去看看呢

7.提问:想做单相机的bev感知,以kitti数据集做参考,请问在自制数据的时候,是否可以只用一个16线激光雷达和一个彩色相机采集数据。如果不行,还有哪些传感器是必备的呢

回答1:分不分量产车和真值车,真值还需要稠密些的点云标注

回答2:目前还不用在车上,现在是想先采些数据,做3D目标检测和BEV检测,是不是没有GPS/IMU也可以

8.请问我跑多目标跟踪代码,CPU占用比较多,但是也会用到一点GPU,最好在网上租什么服务器,我看网上单独租CPU的其中并没有GPU,所以不能单独租CPU,昨天试2080ti,内存没有跑满,但是跑的也是比较慢。

回答1:一般这种代码后处理比较多,所以cpu占用多一些。服务器根据你的需要就可以了,一般跟踪对gpu需求不高

回答2:有些库里面的算子可能有gpu加速,主要还是cpu为主

9.各位佬上午好~想问一下针对BEV空间中的栅格划分,现在有使用动态变化方式的方案吗?例如近/远处的格子分辨率不同或者近远处密集/稀疏程度有差别

回答1:这种不行吧,动态划分一些2d feat到bev上的cuda算子不好做吧

10.你好,我是一名基础架构的工程师,学习自驾是想了解,自驾算法会对视频图像进行抽帧,每帧都是很小的图片,请问下在工业落地的时候,如何解决海量小文件读取的性能瓶颈?本人想到有两条路:

第一条就是把大量的图片合成一个大图片,类似pickle这样的解决方案?

第二条就是在训练框架里面,每次输入源做优化,把很多相近时间段内的图片灌进去,避免出现读随机性?

本人对算法框架的输入源控制不太熟悉,因此想请教下这两种方法落地可行性,还有没有其他工业界落地比较好的方案?多谢

回答1:在实车运行时,自驾算法是按照时间序列输入图像和其他传感器数据的,不会同时海量小图。如果是训练模型这个阶段,也会分batch进行。

11.想请问一下,目前视觉做一些3d目标检测之类的,如何适配不同相机,不同场景的呢?例如单目3d检测,训练涉及到使用相机内参,如何适配到其他相机。bevformer之类的?

回答1:两种方式,要么做域迁移,要么直接用虚拟相机。一般涉及到相机内参的事情,换个相机就不咋好用了,所以领域有一些域迁移的工作,少量本相机的样本+其它成像的数据,一起做优化。还有就是直接把相机模型统一,但这样会遇到一个问题,那就是可能视场角不太一样

12.相同的运算,改变运算顺序,会影响程序的运行结果吗?一段基本上都是乘法和加法的程序,运算结果和理想中的有一些误差,有可能是什么原因啊?

回答1:第一,要给点伪代码出来看看

第二,有可能是改变运算顺序的时候,如i++这些可能会有使用习惯不当导致获取结果不同。

第三,如果是一串很复杂的加法和乘法逻辑,那就一步步全部拆开,分步写等等。

第四就是使用分段调试,先对不同段之间的逻辑调换顺序,一点点调试看结果哪里会有差异

13.3dod的细分类(比如面包车小轿车之类)一般是怎么做的哇?

回答1:标注细分下

14.请教一下,移动机器人基于局部路径规划决策,传统的算法和基于深度强化学习的算法有没有比较好的算法可以推荐学习一下的。有开源的代码就更好了

回答1:机器人导航汇总链接:涉及移动机器人、水下机器人、视觉-语言导航、ROS等

综述

Autonomous Navigation and Collision Avoidance for Mobile Robots: Classification and Review

  • 论文链接:[2410.07297] Autonomous Navigation and Collision A...我们的"具身智能之心"星球比较多哈哈

15.请问联合轨迹预测有没有什么常用的数据集,上次只做了Argoverse2被审稿人喷了

回答1:waymo interaction prediction benchmark也可以

回答2:这也能被喷,argoverse waymo这几个常用的都要跑跑嘛

16.介绍一下个人情况,本人研一,北京双非学校,目前方向是自动驾驶,但是没有任何人带,导师不是这个领域,跟着导师的小老师做,小老师是车辆工程专业的老师,但是做的比较传统,提供不了太大帮助,但个人非常适合这种自由度高但资源少的局面,也有信心去把这件事情做好。

我的目的是读博,因为我想做的是一些创造和探索性质的工作,当然最重要的肯定是想把自己的想法实现,自由度能高一些,自己想做什么就大程度能做什么,一开始想做规控,学习了控制的一些经典算法比如PID,LQR,在carsim上简单做了实验,但是肤浅的觉得传统控制领域(指的是应用在自动驾驶领域内的)没有太多空间去做了,无非是基于学习去优化一下原有的方法(这里是说研究空间,不是工程实际应用)。

而且端到端一直弄的我心痒痒的,所以我开始去较为深入的了解端到端,看了星球发布的端到端学习路线,认真看了端到端行业报告和几场PPT讲座,感觉我自己去弄端到端有点自不量力的感觉,而且实验室只有一张quadro RTX8000的卡。

其次比较关注的就是轨迹预测和3D目标检测方面。

因为我一直是想能先通过一些相较于端到端较为容易上手的而且实验室资源能够支持的模块入手,逐渐向端到端靠拢,而目标检测作为端到端依赖的最初起点,以及轨迹预测又作为模块端到端的起点,所以重点关注了一下这两个模块,而且觉得这两个模块的学习思维应该比较接近端到端的学习思维

问题:

1.那如果我要读博,还想做端到端,应该到底从哪入手呢,是3D目标检测,还是轨迹预测,还是说从其他的模块开始

2.我以上的这个思路是不是正确的,有没有认知上的偏差

3.从硕士三年,或者说两年半这个长线来看,基于我这个计划,我要提前做什么部署呢,需要注意哪些细小但举足轻重的东西呢

我一直想自己推测一个结果出来,可发现知之甚少,所以请教各位老师,感谢各位老师的悉心解答,谢谢各位老师!

回答1:有几个问题你需要想办法,自动驾驶感知的算力问题,端到端需要的算力也很大

1、端到端可以直接基于开源的算法入手,但你是小白入门,学习的过程差什么补什么,像3D目标检测、轨迹预测你在学习的过程都会针对性的补充学习

2、我看你整体的描述,觉得你整体上还在入门的阶段,有这些困惑很正常,大体两三个月就会越来越清晰要做什么 3、你现在所要做的就是紧跟前沿,热点随时会变,持续学习

17.请教一个问题,在nuScenes上跑点云语义分割,只用单帧进行训练,数据增强只有旋转翻转这样的简单增强,指标很低。我用SparseUnet,PTV3,Cylinder3D搞了都很低。同样的网络,在waymo上指标没有那么差。

是不是nuScenes数据集过于稀疏的原因呢?还是有其他原因呢?

回答1:第一你跑的算法有没有在nuScenes上进行实验,第二其他在nuScenes上实验的算法配置是怎样,这些你对比下

18.大佬们好,雷达cfar前数据(频谱数据)和camera有哪些融合方案或者论文可以参考,最好是稀疏的方法,求甩在我脸上

回答1:centerfusion、RCBEV可以看看

19.想问下有没有介绍相机,激光雷达等传感器原理的书籍或资料,包括传感器内部的原理和故障分析等等,感谢!

回答1:硬件这块确实没见过,相机的话有一些相机标定的书,激光雷达这些是不是看产品手册会更好?

回答2:B站上搜 激光雷达 拆解

20.目前在自动驾驶领域 有没有真实数据和生成数据相结合的数据集

回答1:一般有用合成数据结合生成数据一起用提升性能的,直接做一个真实+合成意义不大,合成数据可以根据真实的做

回答2:这里面有些数据集,你可以看看【计算机视觉中的合成数据增强方法】

21.occ bev可以使用广角和鱼眼镜头一起组合使用么,因为提特征的网络是一样的,不同畸变的镜头一起组合使用有问题么,各个厂家有使用鱼眼镜头做occ bev任务么

回答1:大部分是去了畸变再进网络,地平线7号有篇部署ParkingE2E到J6的Demo就是这么做的。老哥也在做鱼眼Occ吗,可以交流下

22.现在大模型的可部署性怎么样?现在在车载芯片上可以用好大模型吗?

回答1:可以部署的,把模型裁一裁。本质还是transformer的部署。大模型可以用在座舱和端到端,可以参考下理想小鹏长安的发布会

#博世将裁员5500人,汽车行业寒冬来了?

博世在华面临的情况完全不同,它反而需要加快速度,跟上中国车企智能化和电动化转型节奏

博世计划在全球裁员5550人,其中包括德国工厂3800人。德国当地时间11月22日,博世和德国工会组织IG Metall发布上述信息,IG Metall反对博世这一计划。

博世曾在11月初警告,如果2024年财务目标无法实现,将在全球范围进行裁员。博世称,汽车市场销量疲软,行业整体出现产能过剩。同时,行业转向电动化、智能驾驶、集中式软件控制等方面的速度不及预期,汽车企业正在推迟或放弃很多这些领域的项目。博世是全球最大的汽车零部件供应商,难免受到影响。

近期欧洲车企也在密集采取措施降本或裁员。11月20日,福特汽车宣布将在欧洲裁员4000人,数量相当于欧洲员工总数的14%。

11月21日,大众汽车集团与工会进行了新一轮劳资谈判,双方还没有就关键条款达成一致。工会威胁将在12月1日举行大规模罢工。

#DeSiRe-GS

专为自动驾驶而生!彻底摒弃3D框,动静态重建完美解耦(UC Berkeley最新)

UC Berkeley最新的工作,提出了DeSiRe GS。全新自监督高斯飞溅表示,可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段,由于3DGS只能重建动态环境中的静态区域,因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间,在第二阶段利用动态高斯的有效公式。结合引入的几何正则化,我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题,重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外,我们引入了时间跨视图一致性,以确保跨时间和视点的一致性,从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性,超越了先前的自监督技术,实现了与依赖外部3D边界框标注的方法相当的准确性。

总结来说,本文的主要贡献如下:

  • 本文基于3DGS无法成功建模动态区域的简单观察,从外观差异中轻松提取运动信息。
  • 然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。
  • 引入了有效的3D正则化和时间交叉视图一致性,以生成物理上合理的高斯球,进一步增强高质量的分解和重建。

相关工作回顾

城市场景重建。新视图合成的最新进展,如神经辐射场(NeRF)和3D高斯散斑(3DGS),显著推进了城市场景重建。许多研究已经将NeRF集成到自动驾驶的工作流程中。Urban Radiance Fields结合了激光雷达和RGB数据,而Block NeRF和Mega NeRF则对大型场景进行了分区,以进行并行训练。然而,动态环境带来了挑战。NSG使用神经场景图来分解动态场景,SUDS引入了一个用于4D场景表示的多分支哈希表。EmerNeRF和RoDUS等自我监督方法可以有效地应对动态场景挑战。EmerNeRF通过场景流估计捕获目标对应关系,RoDUS利用基于核的鲁棒训练策略结合语义监督。

在基于3DGS的城市重建中,最近的工作引起了人们的关注。StreetGaussians使用球谐函数分别对静态和动态场景进行建模,而DrivingGaussian引入了用于静态背景和动态目标重建的特定模块。OmniRe通过动态高斯场景图统一了静态和动态对象重建。

静态动态分解。几种方法试图对动态和静态部件的变形进行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通过引入变形场扩展了vanilla NeRF或3DGS。他们计算规范到观测的转换,并通过变形网络分离静态和动态组件。然而,由于学习密集变形参数需要大量的计算资源,将这些方法应用于大规模驾驶场景具有挑战性,不准确的分解会导致次优性能。

对于自动驾驶场景,NSG将动态和静态部分建模为神经场景图中的节点,但需要额外的3D注释。其他基于NeRF的方法利用多分支结构分别训练时变和时不变特征。基于3DGS的方法,也侧重于静态-动态分离,但仍面临局限性。PVG为每个高斯函数分配速度和寿命等属性,区分静态和动态。然而,这种分离仍然不完整,缺乏彻底性。

神经表面重建。传统的神经曲面重建方法更侧重于真实的几何结构。随着神经辐射场(NeRF)技术的兴起,神经隐式表示显示出高保真表面重建的前景。StreetSurf建议在城市环境中解开近景和远景,以更好地进行隐式表面重建。

3D GS重新引起了人们对显式几何重建的兴趣,最近的工作侧重于几何正则化技术。SuGaR通过引入和附加正则化项将高斯椭球体与物体表面对齐,而2DGS直接用2D圆盘替换3D椭球体,并利用截断符号距离函数(TSDF)融合深度图,实现无噪声的表面重建。PGSR引入了单视图和多视图正则化,以实现多视图一致性。GSDF和NeuSG将3D高斯与神经隐式SDF相结合,以增强表面细节。TrimGS通过修剪不准确的几何体来细化表面结构,保持与3DGS和2DGS等早期方法的兼容性。虽然这些方法在小规模重建中表现出色,但较新的作品旨在解决大规模的城市场景。RoGS提出了与路面物理特性相一致的2D高斯曲面表示。

DeSiRe-GS方法详解

如图2所示,训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段,我们使用PVG将2D运动信息提取到高斯空间中,从而能够以可微的方式纠正每个高斯的不准确属性。​

Dynamic Mask Extraction (stage I)

在第一阶段,我们观察到3D高斯散斑(3DGS)在重建静态元素方面表现良好,例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域,因为原始的3DGS没有包含时间信息。如图2(阶段1)所示,这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题,我们利用静态和动态区域之间的显著差异,开发了一种有效的方法来提取编码运动信息的分割mask。

最初,采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征,F表示从GT图像I中抽取的特征。为了区分动态和静态区域,我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0,表示静态区域,对于不同特征接近1,对应于动态区域。

当预训练模型被冻结时,计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器(MLP)解码器来预测动态度δ,而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征,其中包含丰富的语义信息,同时采用相异性得分来指导和优化解码器的学习过程。

通过采用等式7中定义的损失函数,解码器被优化以预测与动态区域对应的D较高的区域中的较低值,从而最小化损失。然后,我们可以获得二进制掩码编码运动信息(ε是固定阈值):

在训练过程中,图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域,渲染图像和GT图像之间的差异变得更加明显,从而有助于提取运动蒙版。

Static Dynamic Decomposition (stage II)

虽然第一阶段提供了有效的动态mask,但这些mask仅限于图像空间而不是3D高斯空间,并且依赖于GT图像。这种依赖性限制了它们在新型视图合成中的适用性,在这种情况下,监督图像可能不可用。

为了将2D运动信息从第一阶段桥接到3D高斯空间,我们采用了PVG,一种动态场景的统一表示(第3节)。然而,PVG对图像和稀疏深度图监督的依赖带来了挑战,因为很难从间接监督信号中学习到准确的运动模式。因此,如图2(第2阶段)所示,渲染的速度图V通常包含噪声异常值。例如,速度应为零的道路和建筑物等静态区域没有得到有效处理。这导致场景分解不令人满意,PVG经常对预期速度为零的区域进行错误分类。

为了缓解这个问题并生成更精确的高斯表示,我们结合了从第一阶段获得的分割mask来正则化2D速度图V,该速度图V是从3D空间中的高斯图渲染的。

最小化Lv会惩罚速度应为零的区域,有效地消除了原始PVG产生的噪声异常值。该过程将运动信息从2D局部帧传播到全局高斯空间。对于每个高斯分布,通过应用一个简单的阈值,可以区分动态和静态高斯分布。与PVG和S3Gaussian相比,这种方法实现了更优的自监督分解,而不需要额外的3D标注,如之前方法中使用的边界框。​

Surface Reconstruction

Geometric Regularization

Flattening 3D高斯:受2D高斯散斑(2DGS)的启发,我们的目标是将3D椭球体压平成2D圆盘,使优化的高斯更好地符合物体表面,并实现高质量的表面重建。3DGS的尺度s=(s1,s2,s3)定义了椭球体沿三个正交轴的大小。最小化沿最短轴的比例有效地将3D椭球体转换为2D磁盘。缩放正则化损失为:

法线推导:曲面法线对于曲面重建至关重要。以前的方法通过向每个高斯函数附加一个法向量来合并法线,然后使用该法向量来渲染法线图N。使用地面真值法线图来监督高斯法线的优化。然而,这些方法往往无法实现精确的表面重建,因为它们忽略了尺度和法线之间的内在关系。我们不附加单独的法向量,而是直接从尺度向量s中推导出法向量n。法向量方向自然与对应于最小尺度分量的轴对齐,因为高斯在展平正则化后形状像圆盘。

通过这种法线公式,梯度可以反向传播到尺度向量,而不是附加的法线向量,从而促进高斯参数的更好优化。正常损失是:

Giant高斯正则化:我们观察到,3DGS和PVG都可以在不进行额外正则化的情况下产生超大高斯椭球,特别是在无界驱动场景中,如图3(a)所示。

我们的主要目标是拟合适当缩放的高斯分布,以支持精确的图像渲染和表面重建。虽然具有低不透明度的超大高斯椭球体对渲染图像的影响可能很小,但它们会严重损害表面重建。这是一个在仅关注2D图像渲染的现有方法中经常被忽视的局限性。为了解决这个问题,我们为每个高斯函数引入了一个惩罚项:

Temporal Spatial Consistency

在驾驶场景中,视图的稀疏性通常会导致高斯优化过程中对训练视图的过拟合。单视图图像丢失特别容易受到远距离无纹理区域的挑战。因此,依赖图像和稀疏深度图的光度监督是不可靠的。为了解决这个问题,我们建议通过利用时间交叉视图信息来增强几何一致性。

在假设静态区域的深度在不同视图之间随时间保持一致的情况下,我们引入了一个跨视图时空一致性模块。对于参考系中深度值为dr的静态像素(ur,vr),我们将其投影到最近的相邻视图------重叠最大的视图。使用相机内部函数K和外部函数Tr、Tn,相邻视图中的相应像素位置计算如下:

然后,我们查询相邻视图中(un,vn)处的深度值dn。将其投影回3D空间,得到的位置应与通过将(ur,vr,dr)反向投影到参考系而获得的位置对齐:

为了加强交叉视图深度一致性,我们应用几何损失来优化高斯分布,定义为:

这种损失促使高斯人随着时间的推移在视图中产生几何一致的深度。​

优化

第一阶段:在第一阶段,我们的目标是利用运动掩模和渲染图像的联合优化来有效地学习运动掩模。因此,我们只使用遮蔽图像损失LI:

第二阶段:我们使用阿尔法混合来渲染深度图、法线图和速度图,如下所示:

实验结果

结论

本文提出了一种用于驾驶场景中静态动态分解和高质量表面重建的自监督方法DeSiRe GS。通过引入运动掩模模块并利用时间几何一致性,DeSiRe GS解决了动态对象建模和数据稀疏性等关键挑战。

#理想汽车大模型算法工程师面试,被问的瑟瑟发抖

最近面试了理想汽车大模型岗位,被面试官强度拉满了...不仅问到了很多大模型的基础,还有RAG、强化学习、部署的各种问题,尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的,这块的经验积累还是比较丰富。

本文章主要记录了本小菜研找实习的坎坷历程,欢迎大佬们给建议!!!

1. 自我介绍

自我介绍环节主要是让大家进入快速面试状态,聊聊个人基本信息、教育背景、工作经历和技能特长等等。

2. 项目面

因为我简历上面写一个RAG项目,所以面试官主要围绕RAG进行提

  1. 问聊一下RAG项目总体思路?
  2. 在做RAG项目过程中遇到哪些问题?怎么解决的?
  3. RAG项目里面有哪一些亮点?目前开源的RAG项目非常多,你的项目和他们有什么区别?
  4. ...

通用大模型也问到了很多基础的内容:

  1. 阿里的Qwen-VL
  2. 任意模态算法X-InstructBLIP
  3. 统一视觉任务大模型的Florence2
  4. ...

3. 技术问题回答

3.1 简单介绍一下大模型存在哪些问题?有什么好的解决方法?

  • 大模型幻觉问题
  1. 外挂知识库
  2. 大模型微调
  3. 强化学习
  4. ...

3.2 大模型加速框架了解多少,知不知道原理 如何进行加速优化?

  1. vLLM
  • vLLm 运行大模型非常快主要使用以下方法实现的
  • 先进的服务吞吐量
  • 通过PageAttention 对attention key & value 内存进行有效的管理
  • 对于输入请求的连续批处理
  • 高度优化的CUDA kernels
  1. OpenLLM
  • OpenLLM 运行大模型非常快主要使用以下方法实现的
  • 促进实际生产过程中的大模型的部署,微调,服务和监测.
  1. TensorRT-llm
  • DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的
  • 组装优化大语言模型推理解决方案的工具,提供Python API 来定义大模型,并为 NVIDIA GPU 编译高效的 TensorRT 引擎.

3.3 如何看待自动驾驶大模型?以及如何落地自动驾驶大模型?

这块聊了很多自动驾驶大模型的工作,像经典的DriveGPT4、OpenDriveLab的DriveLM,当然也离不开理想自己的工作DriveVLM,估计也是他们快慢双系统借鉴的核心算法。实战这块我自己跑过DriveLM,面试官还是比较感兴趣的,这块深入聊聊蛮多算法细节。

目前来看国内端到端的技术路线已经明确:就是端到端+大模型!据我了解,除了理想,像长安/小鹏都宣称大模型上车了。智能座舱和具身智能这块也是当下非常火爆的方向。未来大模型除了指导快系统外,像数据挖掘、标注等等应该都值得进一步探索。

#极氪副总裁加入新公司

据悉,极氪副总裁、电子电气架构负责人谢保军离职之后,加入了奇瑞旗下的大卓科技。

大卓智能在组织变化上并不止谢保军的加入。今年大卓智能的管理团队的架构发生了调整变化。原本是谷俊丽为CEO,曹光植为CTO,一个负责整体统筹管理,一个负责技术开发。而今年原奇瑞内部自动驾驶技术中心负责人张晓洪被派到大卓智能,担任COO,负责智驾产品技术、项目开发工作。

张晓洪是华为背景出身,曾担任华为汽车BU智能驾驶产品项目群总监,于2021年加入蔚来,后又从蔚来跳槽到奇瑞。

大卓智能人事变化的背后是奇瑞在智驾上着急追赶。在今年,奇瑞董事长尹同跃在多个场合对大卓智能董事长高新华表示,要把智驾水平追上去做到头部阵营。

其实着急的不止是奇瑞,今年各家传统主机厂都在密集的调整动作。有的在切换智驾供应商体系,把量产干的拉跨的踢掉,换上技术实力强的,最典型的是集体"投华"拥抱华为;有的在对自研团队调整,烧钱但不干出东西的自研负责人被调整。

11月份的广州车展上,在奇瑞的展台上尹总接待了探访的何小鹏。当着何小鹏的面,尹总叮嘱高新华,在智能化上要追赶上何小鹏的背影。

尹总和何小鹏聊了聊智驾。尹总称赞小鹏的智能化做的太棒了,又调侃的说何小鹏"你们是年轻精英,把我们这些老汉逼得也要开始搞人工智能了"。

何小鹏也给尹总分享了一个"小经验",智驾直播一定要BOSS亲自上,这样才能使技术团队有足够的压力全力以赴,才会把智驾体验做好。

对于传统主机厂做智驾这个事来说,何小鹏的话点出了关键。老大就得像普通用户一样去体验测试,才能摸清真实技术水平。而不是只听汇报,汇报这个事本来就容易层层注水,就容易陷入"信息茧房"处境之中。

无论是采用供应商还是自研方案,做的到底怎么样,拉出来溜溜就知道了。就像尹总说的,找个最难开的城市、最拥堵的时间段,来一次"小考"。

#MagicDriveDiT

暴力提升生成质量40%!

扩散模型的快速发展极大地改善了视频合成,特别是在可控视频生成方面,这对自动驾驶等应用至关重要。然而,现有的方法受到可扩展性和控制条件集成方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍了一种基于DiT架构的新方法MagicDriveDiT,并解决了这些挑战。我们的方法通过流匹配增强了可扩展性,并采用渐进式训练策略来管理复杂的场景。通过结合时空条件编码,MagicDriveDiT实现了对时空延迟的精确控制。综合实验表明,它在生成具有更高分辨率和更多帧的逼真街道场景视频方面具有优越的性能。Magic-DriveDiT显著提高了视频生成质量和时空控制,扩大了其在自动驾驶各种任务中的潜在应用。

总结来说,本文的主要贡献如下:

  • 本文设计了一个高效的框架MagicDriveDiT,利用渐进式引导来实现高质量的高分辨率长视频生成。
  • 为目标位置、道路语义和相机轨迹开发了新的时空控制,同时保持了多帧、多视图的一致性。
  • MagicDriveDiT通过混合分辨率和持续时间训练,从图像到视频生成都得到了很好的推广,具有外推能力,大大超过了之前工作中的分辨率和帧数。

相关工作回顾

自动驾驶中的视频生成。视频生成对于自动驾驶至关重要,可应用于训练感知模型、测试和场景重建。它需要广阔的视野和动态目标运动处理,需要生成模型可控性和具有更多帧和多相机视角的高分辨率视频制作。扩散模型改进了可控多视图视频生成,但现有模型缺乏足够的分辨率和帧数,无法用于数据引擎应用和策略测试。如表1所示,我们的工作MagicDriveDiT在自动驾驶视频生成方面实现了前所未有的分辨率和帧数。

扩散模型和DiT架构。扩散模型通过学习从高斯噪声到样本的去噪步骤来生成数据,广泛应用于图像和视频生成。从建模的角度来看,流匹配简化了扩散模型的建模,提高了训练和推理的效率。从实现的角度来看,由于更好的可扩展性,扩散模型的架构从UNet转变为DiT,特别是对于高分辨率任务。我们的MagicDriveDiT还利用流匹配和DiT来扩展到高分辨率和长视频生成。

有条件生成。条件生成对于使用生成模型的各种应用程序至关重要。LDM和ControlNet的网格形控制信号加性编码的交叉关注层是可控扩散生成的领先方法。在街景生成中,MagicDrive和MagicDrive3D集成了3D边界框、BEV地图、自车轨迹和相机姿态,用于多视图街景合成。然而,这些方法仅限于空间编码,并不直接适用于时空VAE延迟,如图2所示。MagicDriveDiT为时空压缩的VAE延迟提供了一种新的控制范式,使高分辨率长视频的生成可控。​

MagicDriveDiT方法详解

对于图3所示的模型架构,MagicDriveDiT引入了一种基于DiT的新型扩散模型,用于可控街景生成,,该模型利用STDiT-3块。这些块具有单独的空间和时间模块,以增强信息处理。

架构设计包含两个重大修改。首先为了促进多视图生成,多视图DiT(MVDiT)块集成了一个跨视图注意力层,如图3左侧所示。其次,考虑到需要处理多个控制元素,MagicDriveDiT对文本、框、相机视图和轨迹采用交叉注意力,同时对地图采用额外的分支来输入控制信号。

然而如图2所示,控制信号的空间编码与时空潜伏期不兼容。因此,每个控制信号的编码器都被重新制定,如图3右侧的时空框编码器所示。

此外,MagicDriveDiT采用渐进式引导训练策略,从图像过渡到低分辨率和短视频,最终过渡到高分辨率和长视频,以增强扩散模型的收敛性。最后的训练阶段包含可变长度和分辨率的视频,使模型能够生成不同分辨率的图像和视频,并推断出训练设置之外的更长帧数。​

Design for High-Resolution Long Video

DiT和3D VAE。用于高分辨率和长视频生成的训练扩散模型是计算密集型的,需要大量的GPU内存。DiT和3D VAE在这些方面对扩散模型的缩放至关重要。

正如Peebles和Xie所指出的那样,模型Gflops和FID之间存在很强的负相关关系,这使得DiT在计算效率方面优于UNet等架构。对于GPU内存,3D VAE提供时间降采样。典型的2D VAE在高度和宽度上都将图像压缩8倍,达到64倍的压缩比。相比之下,3D VAE将时间信息压缩了4倍,得到了256倍的压缩比,显著减少了压缩后的潜在序列长度和内存消耗,这对转换器特别有利。此外,架构统一的趋势允许DiT利用先进的并行化方法,例如序列并行,来克服单个GPU内存的限制,从而促进更高的分辨率和更长的视频生成。

采用3D VAE的一个主要挑战是几何控制。如图2所示,几何控制在空间上管理每帧内容。使用2D VAE,T帧被编码为T延迟。使用T几何描述符,视频几何控制降级为对图像的空间控制,因为控制信号和延迟在时间上是对齐的。然而,3D VAE会产生T/f延迟(其中f是时间压缩比),使控制信号与延迟不匹配,并使之前的控制技术无效。

Spatial-Temporal Conditioning Techniques。对于MagicDriveDiT中的几何控制,我们引入了时空编码来将控制信号与时空延迟对齐。这涉及重新对齐场景描述符中的贴图、框和轨迹。以网格数据表示的地图易于管理。通过扩展ControlNet的设计,我们利用3D VAE中具有新可训练参数的时间下采样模块来对齐控制块和基块之间的特征,如图4(a)所示。

对于3D框,填充应用于不可见的框,以保持视图和帧之间框序列长度的一致性,如图3右侧所示。我们使用带有时间变换器和RoPE的下采样模块来捕获时间相关性,创建与视频延迟对齐的时空嵌入,如图4(b)所示。通过用相机姿势的MLP替换盒子的MLP,盒子的时空编码器也可以适应自车轨迹。所有下采样比都与采用的3D VAE对齐,即分别以8n或8n+1作为输入,2n或2n+1作为输出。​

Progressive Bootstrap Training

为了在训练过程中加快模型收敛,我们根据单次训练迭代的持续时间来调度训练数据。具体来说,我们采用三阶段训练方法:最初使用低分辨率图像进行引导训练,过渡到低分辨率短视频,最终采用高分辨率长视频训练。

这种训练策略基于两个观察结果。首先,在可控生成中,我们注意到,在学习可控性之前,该模型最初会针对更高的内容质量进行优化,Gao等人也观察到了这种模式。从头开始训练模型需要多次迭代才能收敛。我们的渐进过渡方法使模型能够更快地获得可控性。其次,在阶段转换期间,我们发现与长视频可控性相比,该模型更快地适应高分辨率。因此,我们从第一阶段开始训练可控性,并专注于用(短)视频而不是图像优化更多的迭代。​

Variable Length and Resolution Adaptation

如前文所述,我们采用三阶段训练流程。在最后两个阶段,我们将不同分辨率和长度的视频用于训练。具体来说,在第二阶段,我们使用长度不超过65帧、最大分辨率为424×800的视频混合进行训练。在第三阶段,我们混合了高达241帧(数据集的最大帧数)和高达848×1600(数据集最大分辨率)的视频。

与单一分辨率和长度的训练相比,这种混合方法使模型能够快速理解分辨率和帧数维度的信息。因此,我们的最终模型支持生成各种分辨率(224×400、424×800、848×1600)和帧数(1-241帧)。它还支持跨两个维度的外推,允许在训练配置之外进行采样,例如129帧时的848×1600或241帧时的424×800。​

实验

结果和分析

生成质量。MagicDriveDiT在视频和图像生成任务方面都表现出色。在视频任务中,与MagicDrive相比,它显著降低了FVD(表2),这是由于DiT架构增强了帧间一致性和时空条件编码,用于精确控制目标运动和定位。如图6所示,MagicDriveDiT生成的高分辨率视频不仅可以提高质量,还可以包含更复杂的细节,与真实相机拍摄的镜头非常相似。这一增强是通过我们对可变长度和分辨率的高级训练实现的,可以实现更真实和详细的输出。

MagicDriveDiT也受益于混合训练方法,能够生成图像。如表3所示,MagicDriveDiT在多视图街景任务中与基线性能相匹配,在车辆分割mIoU和目标检测mAP中超越了基线。这展示了我们时空条件编码的强大泛化能力。

可控性。表2和表3中的定量结果表明,MagicDriveDiT生成的图像和视频有效地反映了控制条件。此外,图8提供了可视化结果,表明多个控制条件可以独立影响生成的内容。例如,天气可以通过文本输入(从晴天到雨天)来改变,同时保持道路结构以及其他车辆和自车的轨迹。通过改变条件的组合,MagicDriveDiT能够制作各种高质量的街景视频。

消融实验

街道景观的VAE比较。在训练扩散模型之前,我们评估了开源3D VAE(即CogVAE和Open Sora)在街景上的性能,并与2D SD VAE进行了比较。如图7所示,CogVAE在重建能力方面始终优于同行。此外,如附录E所示,CogVAE在较长的视频序列上表现出最小的性能下降,使其特别适合长视频生成任务。此外,我们发现所有VAE都表现出随着分辨率的提高而提高的重建能力。这种见解有助于通过专注于更高分辨率的输出来提高我们的模型生成高质量图像和视频的能力。

时空Conditioning。我们通过过拟合实验中的验证损失(图9)和可视化比较(图10)证明了时空编码器的有效性。我们比较了两种基线:全局时间维度缩减(Reduce)和时间维度插值(Interp.)进行对齐。在16个样本的过拟合训练中,4×下采样技术(我们的4×下)加速了收敛,并实现了最低的最终验证损失,如图9所示。此外,图10显示,与全局缩减基线不同,4×down可以减少伪影并保持精确的运动轨迹。这些结果证实了时空编码器利用时空延迟增强数据编码和提高视频生成性能的能力。

渐进式Bootstrap训练。与直接的第3阶段训练相比,三阶段渐进训练方法显著提高了模型训练效率。表4显示,例如,在4天内,阶段1执行的迭代次数比阶段3多约60倍,阶段2实现的迭代次数多约7倍。渐进式训练对于受控生成模型至关重要,可控生成模型需要大量迭代才能有效收敛。渐进式策略能够快速获得高质量的视频生成能力,在早期阶段利用更快的迭代来增强收敛性和加快学习速度。

可变长度和分辨率训练。MagicDriveDiT采用了一种混合不同长度和分辨率视频的训练策略。我们的消融研究证明了这一策略的有效性。如表5所示,当仅使用低分辨率视频(17×224×400)时,VAE的局限性是显而易见的,与其他设置相比,FVD较差,mAP和mIoU评分较低。合并较长的视频可以提高模型的可控性(mAP和mIoU都更高),而合并高分辨率视频可以提高整体质量(所有三个指标都得到了显著改善)。

尽管混合不同的帧长度会略微降低FVD,但这对于使模型能够生成各种长度的视频并推断出看不见的长度至关重要(见第6节)。因此,我们结合了分辨率和帧长,有效地平衡了视频质量、可控性和模型功能之间的权衡。

结论和讨论

在这篇论文中,我们介绍了MagicDriveDiT,这是一个具有精确控制的高分辨率和长视频合成的创新框架,专门为自动驾驶等应用量身定制。通过利用DiT架构和流匹配,MagicDriveDiT有效地解决了视频生成中可扩展性和几何控制的挑战。我们的方法引入了新颖的时空条件编码和具有可变长度和分辨率自适应的渐进自举策略,增强了模型的泛化能力。大量实验表明,MagicDriveDiT可以生成保持空间和时间连贯性的逼真视频,在分辨率和帧数方面大大超过了以前的方法。这项工作推进了视频合成,并为自动驾驶中的模拟和其他应用开辟了新的可能性。

#DATAP-SfM

动态感知跟踪一切!

标题:DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild

作者:Weicai Ye, Xinyu Chen, Ruohao Zhan, Di Huang, Xiaoshui Huang, Haoyi Zhu, Hujun Bao, Wanli Ouyang, Tong He, Guofeng Zhang

机构:Zhejiang University、Shanghai AI Laboratory

  1. 导读
  2. 引言

从单目视频中估计运动相机的姿态在计算机视觉和机器人学领域发挥着基础性作用,在自动驾驶、增强现实等多个领域均有应用。在日常随意拍摄的视频中,相机通常处于移动状态,而复杂的前景运动,包括人物、车辆和其他移动物体,占据了视频帧的大部分。这给在此类场景中实现稳健的相机姿态估计带来了重大挑战。

传统的间接SLAM或SfM方法通过提取和匹配高质量特征点,并利用非线性优化技术来估计相机姿态和重建三维点云,从而最小化几何重投影误差。相比之下,直接SLAM或SfM方法通过优化光度误差(假设视频外观一致)来进行相机跟踪。虽然这些方法已显示出良好效果,但在包含大量动态物体的场景中,它们往往难以实现稳健定位。这一局限性在动态物体常见的真实场景中尤为明显。

为解决这一问题,一些视觉里程计或SLAM方法使用语义或几何先验来减轻由特定类型潜在动态物体(如人或车辆)引起的干扰。然而,在实际自然场景中,一些看似静止的物体也可能呈现运动状态,例如水杯被拿起或移动,或柳枝在风中摇曳。这使得上述依赖语义约束的方法失效。另一方面,一些端到端的视觉里程计或SLAM方法通过训练数据隐式建模场景物体的复杂运动,并通过关注静态区域来估计相机姿态。然而,这些方法在推广到野外视频时面临挑战。

最近,ParticleSfM提出了一种方法,该方法涉及构建点轨迹,应用轨迹运动分割以解决动态轨迹干扰,并执行全局捆集调整以改进姿态估计。该方法在泛化性能和姿态估计准确性方面显示出前景,但也存在明显局限性:(1)基于成对光流匹配的点轨迹构建无疑会带来长期累积误差。(2)使用单目姿态估计进行运动分割存在尺度模糊问题。

基于最近表现突出的二维点跟踪方法,如TAPIR、CoTracker和Omniotion,我们提出了一种新颖的方法,称为动态感知跟踪任意点(Dynamic-Aware Tracking Any Point,DATAP),通过利用一致的视频深度估计和长期点跟踪来解决上述问题。具体而言,DATAP是一种以滑动窗口方式运行的Transformer网络。它估计视频中采样点的点跟踪和可见性。Transformer网络融合了自注意力机制和交叉注意力机制,将滑动窗口内的每条轨迹视为一个整体。这有助于利用轨迹特征之间的相关性,并促进轨迹内和轨迹间的信息交换。在滑动窗口内,每个查询点的轨迹最初设置为0。网络将通过Transformer的迭代逐步细化这些初始估计。随后的重叠窗口将基于前一个窗口的细化预测来初始化轨迹和可见性,并更新新帧的轨迹和可见性。

为估计轨迹的动态运动标签,我们在跟踪特征中融入了多层感知层。这一附加层预测动态运动的概率,类似于预测可见性的方式。这样做旨在解决仅使用二维点跟踪进行动态预测时可能出现的模糊性。受ParticleSfM启发,我们利用深度信息并设计了一个Transformer模块,以消除二维点运动分割中的模糊性。考虑到单目视频单视图深度估计所带来的尺度模糊问题,我们建议使用一致的视频深度估计进行深度初始化。

结合DATAP,我们构建了一个简洁、优雅且稳健的野外运动恢复结构(Structure from Motion,SfM)流程。在MPI Sintel数据集和TUM RGBD动态序列上的实验表明,我们的动态感知点跟踪方法结合SfM可有效提升动态场景中相机定位的准确性。我们还在如DAVIS等野外随意拍摄的视频上验证了该方法,证明了其在复杂挑战性场景中的定位鲁棒性。

3. 效果展示

给定随意的视频,我们的方法可以获得平滑的摄像机轨迹和动态场景的完整点云。从上到下:视频样本、来自COLMAP、ParticleSfM和我们的结果。

MPI Sintel数据集上摄像机姿态估计的定性结果。我们的方法优于现有的SOTA方法。

4. 主要贡献

我们的贡献总结如下:

• 我们提出了一种新颖的动态感知跟踪任意点(DATAP)网络,能够以滑动窗口的方式同时估计点跟踪、可见性和动态性,并利用一致的视频深度先验进一步提升性能。

• 结合DATAP和全局捆集调整,我们提出了一种简洁、优雅且稳健的流程,可从随意拍摄的单目视频中生成平滑的相机轨迹和密集的点云。推荐课程:​​单目深度估计方法:算法梳理与代码实现​​。

5.方法

我们的目标是通过随意拍摄的单目视频实现平滑的相机轨迹和一致的视频深度。为此,我们提出了一种动态感知跟踪任意点方法,即DATAP,以估计视频中点的轨迹及其可见性和动态特性。结合DATAP,我们正式提出了一个简洁、优雅且稳健的野外运动恢复结构流程。图2概述了我们的方法流程。

6. 实验结果

MPI Sintel数据集是一个合成自然视频序列,包含23个复杂且具有挑战性的场景,如高度动态场景、运动模糊场景、非刚性运动场景等。遵循ParticleSfM的方法,我们移除了对评估单目相机位姿无效的序列,如静态相机运动序列,留下14个序列用于比较。我们将本文方法与经典的特征点SfM方法COLMAP及其变体,以及最新的深度学习方法进行了比较。表2中的定量位姿估计结果表明,COLMAP及其变体只能在某些序列上进行位姿估计。而基于学习的最先进方法,如DROID-SLAM在动态场景中表现不佳,难以获得准确的相机轨迹。虽然最近的ParticleSfM在大多数场景中表现良好,但本文基于动态感知点跟踪的SfM方法远优于它们,在所有数据集上的绝对轨迹误差(ATE)提高了19.37%,在COLMAP子集上的ATE提高了28.57%。

TUM RGBD数据集是评估不同挑战下SLAM或SfM算法性能的基准。为了评估本文方法在动态室内场景中的性能,我们选择了9个包含动态对象(如移动的人)的序列。由于ParticleSfM在动态场景中通常表现更好,我们选择ParticleSfM作为主要比较对象。通过运行ParticleSfM的开源代码,实验表明,ParticleSfM在TUM的9个数据集中会出现系统失败,而本文方法能够解算出相机位姿,这显示了本文方法的鲁棒性。在ParticleSfM的子集中,本文方法在ATE上提高了26.62%。

DAVIS数据集是评估视频对象分割和跟踪(无真实相机位姿)的基准。它包含许多挑战,如多对象遮挡、复杂运动、运动模糊等。为了进一步证明本文方法的泛化能力,我们从DAVIS数据集中选择了15个序列,并定性可视化了本文方法的效果。实验表明,COLMAP只能运行DAVIS的15个序列中的10个,而ParticleSfM只能运行8个序列。它们难以获得满意的位姿估计。我们还在图5中展示了更多的定性结果。

7. 总结 & 局限性

本文提出了一种具有动态感知点跟踪的结构从运动(SfM)方法,用于准确的位姿估计。本文方法能够为野外随意拍摄的视频中的动态场景获得平滑的相机轨迹和完整的点云,并且在动态场景中优于现有的SfM和SLAM方法。

局限性。尽管本文方法能够在动态场景中进行鲁棒的位姿估计和一致的视频深度估计,但它不能像实时SLAM系统那样运行,即使我们采用了基于滑动窗口的点跟踪机制。开发一种高效的动态感知点跟踪方法是一个有前景的方向。探索大规模且多样的互联网视频来训练点跟踪方法将进一步提高其鲁棒性。我们将其留作未来工作。

#锐评Were RNNs all we needed

在ICLR openreview主持正义

TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分,并且作者在rebuttal阶段全程嘴硬,遂直接在Openreview贴脸开大,正义制裁:https://openreview.net/forum?id=GrmFFxGnOR\&noteId=2QR0ZJjvCm

如果ICLR变成了一个bad会议,那么你就去建设它 ------sonta

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议

机器之心:图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

量子位:Bengio精简了传统RNN,性能可与Transformer媲美

新智元:RNN回归!Bengio新作大道至简与Transformer一较高下

这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉,然后RNN就变成了一个Linear RNN,可以用associative scan的思路来并行训练

然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.

我在之前也早有blog来理清这一系列的工作的发展

sonta:RNN最简单有效的形式是什么?

​​​https://zhuanlan.zhihu.com/p/616357772​

并且我NeurIPS '23 Spotlight的一个工作,HGRN,正是基于这个思路来进行的

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

arxiv.org/abs/2311.04823

其中有一个审稿人锐评道:

https://openreview.net/forum?id=GrmFFxGnOR\&noteId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人

作者的狡辩是:

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.

这是十足的偷换概念:我们可以在上面的recurrent形式可以看到,GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听,狡辩道

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures rather than augmenting them

这种被审稿人按着捶还不认错,反过来混淆视听的做法真是一点b脸都不要了。此外,这篇文章的完成度低的令人发指,几乎没有稍微大一点的实验。对此,某图灵奖得主挂名的团队给的解释是:

我们穷的只能用P100辣。然而据我mila朋友的反应,mila内部有不少计算集群资源,并且这个一作的权限还不低。

而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:

提到了我们HGRN和之后一系列的work,并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我,

并且解释道这篇的motivation是为了simplify existing architecture

变得新手友好,老少皆宜。

我哭笑不得,首先勒令他们解释跟GILR的区别,

你说的好,但是GILR=minGRU

并且痛批他们开倒车,把整个领域这一年的发展直接清零,梦回一年半前

大家辛辛苦苦发展了一年的领域,你直接倒回去了?

同时作者团队还在解释,不是他们博人眼球特意宣传,是大家自发进行的:

(内心OS:对对对,你们有这么大一个图灵奖得主挂名,标题起的这么大,可不得是一堆自干五来做宣传吗)

我的使命到此结束,等待AC和其他审稿人的正义制裁​

结言

肉眼可见,ICLR '25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水,引入了一堆本来没有资格审稿的人加入审稿大军,那么每个审稿人的workload不就小了吗?这一大放水的结果可想而知,这么离谱的一篇工作,还有两个reviewer给出了8分和6分的高分,并且8分reviewer直呼novel,气的我反手一个public comment:

审稿workload变低了,但审稿质量离谱了,大家又得花更多的时间去处理不称职审稿人的意见,导致本届会议的discussion氛围感人,主办方直接延期rebuttal一周,让大家感受三周rebuttal的快乐,真是不戳呢(

同时,我发现审稿人对linear RNN的进展的了解真是少的令人发指,我一个一年前的starting point工作,被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情,教育community也是(不多说了,赶紧去写blog来系统的介绍自己这两年的工作了)

#RT-Grasp

百度RT-Grasp:通过MLLM进行推理调优的机器人抓取

想象一下,如果一种技术能利用大型语言模型(LLMs)的推理能力,为机器人生成准确的抓取位姿,是不是很酷?

最近,罗格斯大学与百度研究院的团队就实现了这一目标!

在此之前,许多研究已探索了机器人抓取与语言模型结合的可能性:

  • 机器人抓取领域,传统方法依赖于几何分析或接触力优化,但在处理未知或形状复杂的物体时表现有限。数据驱动方法(如基于卷积神经网络的模型)虽然更具灵活性,但容易过拟合,且缺乏对物体属性(如材质或用途)的深入推理能力。
  • 语言与机器人操作结合方面,早期研究探索了基于语言描述的抓取检测与操作任务分解。但这些方法大多依赖大量示例或基础动作库,效率与灵活性受限。

我们通过Reasoning Tuning(推理调优) 方法,创新性地将LLMs的推理能力与机器人抓取任务结合,提出了一个全新流程:在预测前先进行推理阶段,以挖掘LLMs丰富的先验知识和多模态推理能力。不仅让LLMs能生成上下文感知、可调的数值预测(如抓取位姿),还通过Reasoning Tuning VLM Grasp 数据集进一步优化模型性能。

实验表明,这种方法在数据集和真实抓取场景中表现优异,不仅拓宽了LLMs在机器人领域的应用范围,还有效填补了文本规划与机器人直接控制间的鸿沟,为未来机器人操作的智能化发展提供了新思路!

内容出自国内首个具身智能全栈学习社区:​​具身智能之心知识星球​​,这里包含所有你想要的。

论文标题:RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

论文链接:https://arxiv.org/pdf/2411.05212

项目链接:https://sites.google.com/view/rt-grasp

作者单位:罗格斯大学 百度研究院

工作的创新和贡献

  • 提出了一种名为推理调优(Reasoning Tuning)的新方法,利用预训练多模态 LLMs 的内在先验知识,推动其适配于需要数值预测的任务。
  • 发布了Reasoning Tuning VLM Grasp数据集,专为多模态 LLMs 在机器人抓取任务中的微调而设计。
  • 通过两种计算高效的训练策略对所提出的方法在机器人抓取任务中的表现进行了实证验证,并在真实硬件环境中开展了实验。实验结果表明,该方法不仅有效,而且能够根据用户指令优化抓取预测。

RT-Grasp方法设计详解

近年来,人工智能的发展得益于大语言模型(LLMs)的兴起,这些模型凭借其丰富的知识储备和先进的推理能力,彻底改变了我们处理各种任务(尤其是语言处理任务)的方式。在机器人领域,LLMs 在促进机器人与人类的直接交互方面发挥了关键作用。例如,在机器人操作规划任务中,许多研究利用 LLMs 解析用户的自然语言指令,并将其转化为可行的多步操作规划。然而,尽管 LLMs 在机器人领域具有巨大潜力,其应用仍主要局限于此类规划任务。一个显著的瓶颈在于 LLM 输出的文本特性,这种特性对需要精确数值输出的任务往往带来挑战。

近年来,多模态大语言模型(LLMs)通过理解文本和图像,进一步扩展了 LLM 的能力。在机器人领域,这些模型弥合了感知与规划之间的鸿沟,解决了多种具身推理任务。然而,其图像理解能力仍然存在精确性不足的问题,例如,它们虽然能够提供一般性描述,但往往难以准确确定物体位置。尽管如 GPT-4 with vision 等模型在物体检测任务中展现出潜力,但在需要进行独特数值预测(例如机器人抓取中的抓取姿态)时仍然面临困难(见图 1)。此外,多模态 LLMs 在机器人应用中的另一个显著挑战是其文本输出的不稳定性和冗长性,这使其在需要精确操控的任务中缺乏可靠性。尽管某些机器人任务可以从多模态 LLMs 的集成中受益,其直接数值预测能力仍然鲜有深入研究。

我们探讨了多模态大语言模型(LLMs)在数值预测任务中的潜在应用,重点关注机器人抓取领域。机器人抓取被认为是机器人学中一项基础但极具挑战性的任务,其核心在于生成精确的抓取姿态,这对后续的机器人操作至关重要。

传统的机器人抓取方法通常依赖于确定性预测,但由于缺乏推理能力,这些方法在实际场景中往往表现不佳。大多数现有方法基于 CNN 架构,尽管在基准数据集上的实验精度表现优异,却在实际应用中面临诸多挑战。例如,这些传统模型可能生成理论上正确但在执行中不可行的预测,如图 1 所示的无效抓取。这类预测由于机械臂的夹爪限制差异,难以在不同机器人间通用。此外,一些理论上正确的抓取可能导致不安全行为,例如抓取过程中夹持螺丝刀的锋利末端。

因此,采用具有推理能力的非确定性方法至关重要。这种能力不仅使模型能够生成适用于多种场景的实际抓取姿态,还能够根据用户指令优化预测结果。由此提出一个问题:LLMs 所具备的推理能力是否可以用于机器人领域的数值预测任务?我们对此给出了肯定的回答,展示了多模态 LLMs 在机器人抓取任务中的适应性与应用潜力。

为了高效利用多模态 LLMs 的推理能力进行数值预测,我们提出了一种新颖的方法,称为推理调优(Reasoning Tuning)。该方法在训练过程中引入了一个关键的推理阶段,置于数值预测步骤之前。推理阶段的主要目标是引导模型基于逻辑推理原则进行预测。例如,模型首先通过推理确定物体的类型、形状、位置以及基本的抓取原则,随后再从这一推理结果中得出数值预测。该推理阶段旨在解锁多模态 LLMs 中蕴含的宝贵信息,充分利用其对一般物体属性的广泛知识。通过实验证明,在引入推理阶段的基础上微调多模态 LLMs,能够显著提升其在机器人抓取任务中生成数值预测的效果。

我们研究了两种经济高效的训练策略来实现所提出的推理调优(Reasoning Tuning):预训练和LoRA微调。研究这些策略的目的是提供一种更为资源高效的方法,将多模态 LLMs 的能力迁移到下游的机器人任务中。

这里的工作重点在于将多模态 LLMs 适配于数值预测任务,特别是在机器人抓取领域。与传统的确定性方法相比,本文的方法不仅融入了先进的推理能力,还提出了一种全新的预测优化范式,如图 1 所示。

图 1. 三种机器人抓取方法的对比:

  1. 传统的基于 CNN 的算法:生成固定的抓取姿态,但在实际应用中缺乏适应性。
  2. 多模态 LLMs:输出适应性强的抓取策略,但缺乏精确的数值预测能力。
  3. 我们的方法:结合两者的优势,基于推理策略生成既适应性强又精确的数值抓取预测。

图 2. 方法概览所提出的方法通过处理 RGB 图像和用户指令,生成包含推理阶段和数值抓取姿态预测 的文本输出。推理阶段基于物体的类别分析其形状和结构,并生成相应的抓取策略。

图 3. Reasoning Tuning VLM Grasp 数据集样本示例数据样本的结构化文本答案包含推理阶段以及抓取姿态的真实值。

图 4. Reasoning Tuning VLM 数据集中的推理模板示例

图 5. 两种训练策略

  1. 预训练:仅投影层的参数可训练;
  2. LoRA 微调:仅投影层和 LoRA 模型的参数可训练。

实验验证

图 6. 消融研究中的两种变体示意图

图 7. 本文方法(RT-Grasp)在两种训练策略下的验证精度

图 8. 用于真实抓取实验的家庭测试物体

图 9. 家庭测试物体的抓取精度

图 10. 推理与交互式优化RT-Grasp 的输出包括推理阶段(蓝色部分)和数值抓取姿态。初始预测的抓取用红色标示,经过优化后的抓取用绿色标示。

表 I 抓取数据集的实验结果GR-ConvNet 的结果引自文献。

表 II 真实场景评估结果

最后,总结下

我们的研究突显了大语言模型(LLMs)在传统以文本为中心的应用之外的潜力。提出的方法充分利用了 LLMs 的丰富先验知识,用于数值预测,特别是在机器人抓取领域。通过在基准数据集和真实场景中的全面实验,验证了该方法的有效性。未来工作中,计划将方法的验证范围扩展到包含更多种类物体的抓取数据集,例如 Jacquard 数据集。此外,将多模态 LLMs 的数值预测能力适配于其他机器人操作任务也是一个值得探索的研究方向。

#xx
相关推荐
檀越剑指大厂28 分钟前
无需昂贵GPU:本地部署开源AI项目LocalAI你在消费级硬件上运行大模型
人工智能·开源
桂月二二1 小时前
利用ChatGPT API构建智能应用的最佳实践
人工智能·chatgpt
科技与数码3 小时前
倍思氮化镓充电器分享:Super GaN伸缩线快充35W
人工智能·神经网络·生成对抗网络
HUIBUR科技5 小时前
量子计算遇上人工智能:突破算力瓶颈的关键?
人工智能·量子计算
CES_Asia5 小时前
CES Asia 2025聚焦量子与空间技术
人工智能·科技·数码相机·金融·量子计算·智能手表
程序猿阿伟5 小时前
《量子比特:解锁人工智能并行计算加速的密钥》
人工智能·量子计算
盖丽男6 小时前
机器学习的组成
人工智能·机器学习
风一样的树懒7 小时前
Python使用pip安装Caused by SSLError:certificate verify failed
人工智能·python
9命怪猫7 小时前
AI大模型-提示工程学习笔记5-零提示
人工智能·笔记·学习·ai·提示工程
cnbestec8 小时前
GelSight Mini视触觉传感器凝胶触头升级:增加40%耐用性,拓展机器人与触觉AI 应用边界
人工智能·机器人