ShapeLLM: 用于具身交互的全面3D物体理解

ShapeLLM: 用于具身交互的全面3D物体理解

论文地址:https://arxiv.org/abs/2402.17766

项目主页:https://qizekun.github.io/shapellm/

1 引言

3D形状的理解是在数字和物理世界中塑造智能系统的基本能力,在图形,视觉,增强现实和体现的机器人技术方面取得了巨大进步。但是,要被现实世界代理有效部署,必须满足几个关键标准:

(i)需要捕获足够的3D几何信息以进行准确的空间和结构处理。

(ii)模型应赋予与物体相互交互方式的基础知识(通常是物理上),以进行功能理解。

(iii)需要通用界面作为信息编码和解码之间的桥梁,这可以帮助转换对话反应和体现反馈等代理反应的高级指令。

大语言模型(LLMs)的最新进展证明了跨任务的基础知识和统一推理能力的前所未有的成功。它可以利用语言作为通用界面,从而使LLMs中嵌入的全面常识知识能够增强对3D形状的理解。这在物理基础的任务中尤其明显,在这种任务中,常识知识的财富简化了对物体功能,机动性和动态等的解释。但是,在将LLMs纳入3D对象理解时,上述挑战仍然存在 - 尤其是依赖体积的互动的挑战在精确的几何形状上 - 目前探索的。

"图1:Shape LLM 和Recon ++的演示。我们提出Shape LLM ,这是第一个用于体现相互作用和空间智能的3D LLM。 "

问题是:是什么使更好的3D表示语言模型和面向互动的3D对象理解?在这项工作中,我们介绍了满足要求的ShapeLLM,这是根据以下三个设计策略确定的:

  1. 3D点云作为输入。 最近,一些同期工作提出将点云图像用作多模式LLMS的输入并证明有效性。但是,这些工作无法获得准确的3D几何理解,并且经常遭受众所周知的视觉幻觉问题。与2D图像相比,3D点云为物理环境提供了更准确的表示,封装了稀疏但高度精确的几何数据。此外,3D点云对于促进需要精确的3D结构(例如6-DOF对象姿势估计)至关重要。
  2. 选择性多视图蒸馏。 与物体相互作用通常需要具有复杂的3D理解,该理解涉及各个层次和粒度的知识。例如,对于打开大型机柜等互动,需要进行整个部分的高级语义理解,而详细的高分辨率(即低级)语义对于操纵抽屉手柄等较小的物体至关重要。但是,现有的作品主要是从2D基础模型中提取单视高分辨率对象特征,从而提供了互补的理解。由于视图变化和几何的一致性,多视图图像具有丰富的多层次特征的潜力。 ShapeLLM通过集成多视图蒸馏,将Recon扩展到Recon ++作为3D编码器。为了使模型能够选择性地提炼出增强优化和概括的视图,受到DETR的启发,通过使用匈牙利算法来优化Recon ++。
  3. 3D视觉说明调整。 指导调整已被证明有效地提高了LLMs的对齐能力。为了通过通用语言界面实现各种3D理解任务,ShapeLLM通过遵循构造的语言输出数据的指导调整来训练。但是,类似于2D视觉指令调整,由于没有对象级VQA数据可用,因此数据删除问题甚至更糟,与2D不同。为了验证ShapeLLM的功效,我们首先在处理后的OBJAVERSE数据集上使用高级GPT-4V(ISION)构建约45K指令遵循数据,并从Gapartnet中了解了30k的零件理解数据- 统一。在MM-VET之后,我们进一步开发了一种新的评估基准,称为3D MM-VET。该基准旨在评估核心视觉语言功能,包括在3D背景下具有体现的相互作用,从而刺激未来的研究。3D MM-VET基准包括59种不同的网络上3D对象和232个人编写的问题解答对。

通过广泛的实验,我们首先证明了我们的改进的3D编码器Recon++设置了在下游微调和零样本3D对象识别上转移的新最新表示。具体而言,Recon ++在Scanobjectnn和ModelNet40上获得了95.25%和95.0%的微调精度,在最具挑战性的ScanObjectnn上超过了以前的最佳记录+1.85%。此外,Recon ++在Objaverse-LVI和ScanObjectnn上达到了53.7%和65.4%的零样本精度,该准确性比以前的最佳优质高0.6%, +0.6%, +1.6%。通过利用我们的Recon ++作为ShapeLLM的3D编码器,ShapeLLM成功地统一了各种下游任务,包括3D字幕,3D VQA,体现的任务计划和分解,3D体现的视觉标定和3D精确的推荐对话(见图1)。在我们新建的3D MM-VET基准测试中,ShapeLLM-7B和ShapeLLM-13B已实现了42.7%和49.3%的总准确度, 分别。这项工作启动了利用LLM进行体现的对象互动的第一步,我们希望我们的ShapeLLM和提出的3D MM-VET基准可以刺激更多相关的未来研究。

2 ShapeLLM

在本节中,我们首先介绍ShapeLLM的整体体系结构。然后,我们深入研究了交互式3D理解中面临的两个关键挑战:数据荒漠和3D点云的代表。我们介绍了分别解决这些挑战的方法的详细设计。

2.1总体体系结构

这项工作的主要目的是通过将LLM用作通用接口来互动3D理解。从最近的视觉理解中汲取灵感,所提出的ShapeLLM分别组成了预训练的3D编码器和LLM,分别用于有效的3D表示学习和理解。具体来说,我们采用CAMEL作为我们的LLM,基于先前工作的成功。至于3D编码器,我们根据最新的工作进行了多次改进,提出了一个名为ReCon++的新颖3D模型,因为3D理解通常需要更多信息,例如准确的空间和多视图详细信息等,以确保与LLM兼容输入,从Recon ++获得的3D对象的表示在被送入LLM之前会经历线性投影。为了进一步提高低水平的几何理解,哪些使诸如6-DOF姿势估计的任务受益,我们附加了通过3D坐标线性投影获得的绝对位置编码(APE)。此外,我们使用带有可学习提示的前缀调整来自适应调节APE和ReCon ++表示的不同语义。

"图3:指导跟随和3D MM-VET数据的定性可视化。 "

2.2如何减轻互动3D了解数据沙漠?

大多数已发表的3D数据通常以3D对象捕获对表示,缺乏交互式样式。尽管一些并发的作品试图构建交互式3D理解数据集,但问题和提示者(Q&AS)主要基于注释的标题,通常提供有限的观点,没有足够的细节。此外,这些作品通常仅限于语义理解,而无需考虑具体的相互作用。为了解决这些局限性,我们的工作使用GPT-4V(ISION)基于3D对象的多视图图像来构建问答对。对于数据多样性,我们明确地将六个方面引入了提示,如图3A所示。在下文中,我们将分别提供有关数据收集和构造的详细信息,分别有关一般语义理解和体现对象理解。

"图4:具身交互作用数据的定性示例"

**数据。**Objaverse-LVIS 和Gapartnet是数据源。 Objaverselvis涵盖了1,156个LVIS类别,我们每个类别采样了前10个"赞" 3D对象,并每样本生成Q&A对。滤除嘈杂的问答后,我们获得了约45k的指令遵循样品。我们通过删除"遥控器"来避免过多的微小盒子,使用了来自Gapartnet的12个类别,从而导致约30k的Q&A样品,这些Q&A样品是由约4K对象的约8K部分构建的,覆盖了约1.1k的物体。

一般的语义理解。 这旨在增强模型在视觉识别,知识整合,空间理解和其他方面的概括能力。我们提示GPT4-V根据从四个不同视图捕获的图像在六个不同方面生成问答,如图3A所示。

体现的对象理解。 对部分层面上的空间位置和语义的全面理解对于促进有效的对象抓紧和相互作用至关重要。幸运的是,Gapartnet提供了丰富的零件注释,包括语义和姿势,它们有助于为受试者的体现互动部分构建指导数据的数据。具体而言,给定一个3D对象,问题是根据其不同部分的语义提出的,并且在语义和3D位置都构建了答案。这些位置表示为6-DOF 3D边界框中的平直Python多维列表格式,表示为[[x1,Y1,Z1],[X2,Y2,Z2],...,[X8,Y8,Z8]] ,满足LLMS中文本对话响应的特征。物体的规范空间确定坐标的序列。使用边界框坐标利用固有的空间关系,使LLM可以轻松学习这些模式并生成准确的输出坐标。如图4所示,这种方法可以为具体操作提供特定的位置信息。

2.3 ReCon++:扩展3D表示学习

与对象抓握的相互作用通常需要在多层次和多层次上准确地感知3D形状信息。这对3D表示形式提出了更高的要求,要求对3D几何形状有更高的整体理解标准。

但是,现有的3D跨模式表示方法主要是从单视2D基础模型中提取高分辨率对象特征,从而产生单方面形状的理解。此外,它们通常采用多视图图像作为数据增强,将学习的表示形式强加给所有视图的平均表示。因此,缺少准确的3D形状信息。最近,ReCon利用重建为指导的对比度来解决局部蒙版数据建模与全球跨模式比对之间的模式差异。这会导致各种任务的出色表现,包括转移学习,零样本分类和部分分割。然而,预处理数据的稀缺性阻碍了其潜力。

为了解决上述局限性,本文提出了重新++的多次改进。首先,多视图图像查询令牌在不同视图上合作理解3D对象的语义信息,包括RGB图像和深度图。考虑到在姿势方面进行预处理数据的混乱性,我们提出了一种基于两部分匹配的跨模式比对方法,该方法隐含地了解了3D对象的姿势估计。其次,我们扩大了侦察的参数,并扩大了预处理数据集的量表,以构成强大的3D表示。

表示n作为多视图图像的数量,ii是i-th视图的图像功能,而Qi表示i-th视图的全局查询。在DETR之后,我们搜索成本最低的n个元素的最佳置换σ:

其中lmatch(ii,qσ(i))是i-th视图图像特征II和匹配的查询qσ(i)的成对匹配成本,并带有置换σ。实际上,我们采用余弦相似性作为匹配成本。以这种方式,学会了每个视图的查询,以从3D点云中收集准确的3D形状信息。将本地3D点云编码器和全局3D点云解码器的功能串联在一起提供了全面的信息,以了解3D多模式LLMs。

3 3D MM-VET:基准测试3D理解

各种各样的视觉语言功能对于开发针对具体场景的多模式大型语言模型至关重要,尤其是解决任务和行动计划。

该模型在处理点云方面的熟练程度使其能够轻松执行一般识别任务,从而证明了对有色点云的广泛理解。该功能是更复杂的任务的基础。除了3D认可之外,LLM应该在解决现实世界中体面的方案中解决任务方面具有能力。这需要统一上述能力,以逐步以指示方式逐步产生分解的任务操作,从而解决特定问题。

"表1:ScanObjectNN和ModelNet40上的微调3D识别。据报道,总体准确性(%)被报告。 †:具有后训练的结果。"

因此,为了建立一个与上述任务描述一致的评估系统,我们建立了一个多级评估任务系统,其中包含四级任务:一般识别知识和语言生成空间意识具身交互。该框架在处理交互式对象时系统,全面地评估了模型在信息理解和语言生成方面的熟练程度。任务的详细说明列出了如下:

  1. 一般识别:在MM-VET之后,我们评估了涉及粗粒和细粒度方面的LLM的基本理解能力。粗粒识别的重点是诸如颜色,形状,动作等的基本对象属性。而细粒度的识别涉足诸如子部分和计数等细节等。
  2. 知识能力和语言生成: 要检查模型理解和利用知识的能力,从MMBench汲取灵感,我们将其推理组成部分整合。这包括涵盖自然和社会推理的知识,物理特性,顺序预测,数学等,评估多模式LLM是否具有解决复杂任务的必要专业知识和能力。我们利用自定义的提示来刺激模型并提取详细的响应以评估语言生成。
  3. 空间意识: 在3D中,由于提供的几何信息,与2D相比,空间意识具有更高的意义。点云包含位置信息对于辨别不同部分之间的空间关系至关重要。在2D中,达到相同的信息强度水平将需要多视图图像。因此,我们的评估包括探测LLMs了解空间关系能力的问题。
  4. 具身交互作用:MLLM的利用范围延伸到体现相互作用的领域,这是通过使用指令遵循数据的利用来促进的。我们的评估系统通过正式要求LLMs提供指令的执行步骤来测试其容量。这种方法旨在建立处理具体交互任务的连接。

为了防止与训练数据重叠,我们的3D模型收集仅来自TurboSquid,该平台未包含在Objaverse和Shapenet的收购列表中。我们精心策划了59个3D模型的数据集,以生成232个问答目的。为了对单任务功能进行精确评估,每个问题旨在仅测试前面概述的一个特定能力。每个问题都与针对特定3D模型的相应答案配对,作为基础真理。数据集样品如图3b所示。更多细节和分析可以在补充材料中找到。

4 实验
4.1 3D表示用ReCon++转移

微调3D对象识别。 在表1中,我们首先通过对ScanObjectnn和ModelNet进行微调来评估自我监督ReCon++的表示形式转移学习能力,这些ModelNet目前是两个最具挑战性的3D对象数据集。 ScanObjectnn是来自现实世界场景ScanRefer的约15k 3D对象点云的集合,涉及15个类别。 ModelNet是从干净的3D CAD型号中收集的最古典3D对象数据集之一,其中包括约12k网格的3D CAD型号,涵盖40个类别。在Pointgpt之后,我们采用了中间的微调策略,并使用后后阶段通过在Shapenetcore上进行自我监督的预测来转移一般语义。为了进行公平的比较,我们的基础和大型模型采用了与Pointgpt相同的层次,隐藏尺寸和注意力头。表1表明:

(i)ReCon++表现表现性能显着超过其他基线的表现,从而实现了最新的结果。

(ii)尤其是,Recon++在最具挑战性的ScanObjectnn PB_T50_RS基准中获得了95.25%的显着精度,将变压器基线提高了+16.14%。

"表2:OBJAVERSE-LVIS,ModelNet40和ScanObjectnn上的零样本3D识别。结合[97]:使用四个数据集进行预处理,即Objaverse,Shapenet ,ABO和3D-Future。 †:UNI3D使用较大的EVA斜线[152]老师,而其他方法则采用OpenClip-bigg。 "

零样本3D开放世界识别。 与CLIP类似,我们的模型将语言和其他模式的特征空间保持一致,这导致了零样本的开放世界识别能力。在表2,我们比较Zeroshot 3D开放世界对象识别模型,以评估可推广的识别能力。在Openshape之后,我们对ModelNet,Scanobjectnn和Objaverse-Lvis进行评估。 Objaverse-Lvis是一个基准,涉及约47K的1,156 lvis类别的〜47K清洁3D模型。我们将Recon ++与2D推理方法,塑形预测方法和"结合"数据集预测方法进行比较。可以从表2总结。i)与2D推断和塑形方法相比,侦察++表现出明显优越的性能,显示了3D点云作为输入和扩展的必要性。 ii)与在"结合"数据集中训练的最新方法相比,侦察++在所有基准测试中都表现出了卓越或在PAR上的性能。值得注意的是,Recon ++ -L在最具挑战性的OBJAVERSE-LVI和SCANOBJECTNN基准分别达到 +0.6%和 +7.2%的TOP-1精度。

"表3:3D MM-VET上3D上下文中核心VL功能的零射3D多模式理解。 REC:一般视觉识别,知道:知识,gen:语言产生,吐痰:空间意识,EMB:具体相互作用。 "

4.2 ShapeLLM的多模态综合

定量分析。 为了评估ShapeLLM的综合功能,我们首先使用GPT-4进行定量比较了所提出的3D MM-VET的模型。遵循ModelNet-C和ModelNet40-C,我们构建了3D MM-VET-C,以对3D损坏的鲁棒性进行基准测试。

i)3D MM-VET。表3显示了ShapeLLM在3D MM-VET的不同任务上的详细结果。据观察,在各种指标上,尤其是在体现的任务中,ShapeLLM显着胜过PointLLM。这证明了我们模型在解决现实世界任务时的多功能能力。

ii)3D MM-VET-C。遵循ModelNet-C和ModelNet40C,我们构建3D MM-VET-C来基准对3D损坏的稳健性。表4显示了鲁棒性与"单视","抖动"和"旋转"腐败的比较,这在实际情况下是最常见的。 "单视"问题是最关键的挑战,因为获得完整的点云是不平凡的,类似于多视图图像。因此,每天的现实世界机器人只能通过传感器(例如RGB-d)获得单视3D感知。结果表明,造型的鲁棒性显着,表明在现实世界中的适用性方面具有更强的潜力。

"表4:3D MM-VET-C上鲁棒性的零样本3D多模式理解。干净:没有腐败。单视图:随机选择单元球体内的相机视点,并在极坐标上的FOV中生成单个观点。抖动:用噪声j〜n(0,σ2)和σ= 0.01抖动的高斯抖动。旋转:随机SO(3)在X-Y-Z Euler角(α,β,γ)〜U(-θ,θ)和θ=π/6上进行旋转采样。"

"图6:3D使用单视点云输入的多模式对话。所有答案均由Shape LLM -13b产生,具有遮挡的输入。 Shape LLM 对现实世界中这种常见的遮挡实现了出色的鲁棒性。"

基线改进。 我们可以改善基线以弥合PointLLM和ShapeLLM之间的差距吗?在表5中,我们研究了由ShapeLLM贡献的两个技术因素:3D点云编码器和SFT数据。

i)从编码器进行改进。 首先,通过将PointLLM的编码器更改为concon ++,可以获得+4.20%的显着改善。与ULIP-2相比,这表明RENCE ++的3D表示提取明显更好。这与表1和表2中的先前发现一致,表2中的++的表现优于ulip-2,略大于3D表示的传递学习和零拍学习。

ii)从数据改进。 如2.2章节所述。我们使用涉及各种主题的GPT-4V构建了遵循指导的数据,以进行监督微调(SFT)。通过进一步使用美国策划的SFT数据,PointLLM对ShapeLLM的性能差距已得到满足。这证明了我们的SFT数据的优势,其中不错的质量来自高级GPT4-V使用多视图图像和数据中涵盖的主题。

"表6:3D引用在Gapartnet上标定的表达。据报道,IOU阈值的精度为0.25。 †:在Gapartnet图像上进行微调。 ‡:使用3个中文演示的推断。 "

定性分析。 图5说明了多模式对话中造型的定性示例。 ShapeLLM可以支持一般的VQA,具体的任务和行动计划以及6-DOF姿势估计。值得注意的是,LLMs很容易掌握此类模式,并且由于6-DOF边界盒坐标固有的严格空间关系,因此始终产生有效的坐标。图6显示了ShapeLLM-13b使用单视点云输入的响应的示例,在处理此类闭塞时表明了出乎意料的鲁棒性。这对于实际机器的实际部署至关重要,因为可以从RGB-D摄像机轻松获得单视点云。

5 讨论
5.1 ShapeLLM是否被标定在物理世界?

表6将ShapeLLM与仅图像的方法在3D参考表达标定(REG)上的6-DOF姿势进行了比较。结果表明:i)仅图像的方法无法执行零样本几何形状的6-DOF姿势估计。 ii)与仅2D至6-DOF姿势估计微调或中文提示的仅图像方法相比,ShapeLLM的性能仍然明显更好。它证明了几何形状的必要性以及不适合的2D到6-DOF姿势估计问题的难度,以及使用3D点云作为空间智能的输入的重要性。

5.2 ShapeLLM可以泛化到没见过的物体吗?

图7显示了理解看不见对象的示例的部分。 ShapeLLM的六元姿势估计和空间意识是在Gapartnet上培训的,Gapartnet主要由室内铰接式家具对象组成。它显示出对开放世界对象的空间理解的有希望的概括潜力,铺平了扩展空间意识训练的方法。

"图7:一部分理解Gapartnet以外的看不见对象的示例。"

6 结论

本文介绍了ShapeLLM,这是第一个用于体现互动的3D MLLM,在可普遍的识别和互动理解中表现出色。我们提出了Recon ++,这是一种新颖的3D点云编码器,利用多视图蒸馏和高级3D表示学习,构成了ShapeLLM的基础。我们对策划的指导关注数据进行3D视觉指令调整,以进行广泛和具体的理解。此外,我们建立了3D MM-VET,这是一种基准,用于评估从基本识别到控制语句产生的体现相互作用方案中四个能力级别的基准。

相关推荐
mwq301234 小时前
🚀 从 GPT-1 到 GPT-4:一场关于模型架构的宏伟演进
人工智能
龙山云仓4 小时前
迈向生成式软件制造新纪元:行动纲领与集结号
大数据·人工智能·机器学习·区块链·制造
Baihai_IDP4 小时前
GPU 网络通信基础,Part 3(LLM 训练过程的网络通信;InfiniBand 真的是“封闭”技术吗?)
人工智能·llm·gpu
葡萄城技术团队4 小时前
Wyn 商业智能软件:3D 可视化大屏工具的信创级智能解决方案
数据分析
kalvin_y_liu4 小时前
DeploySharp开源发布:让C#部署深度学习模型更加简单
深度学习·开源·c#
小虎AI生活4 小时前
CodeBuddy实战:小虎个人博客网站,AI编程就是升级打boss的过程
人工智能·ai编程·codebuddy
txwtech4 小时前
第5篇 如何计算两个坐标点距离--opencv图像中的两个点
人工智能·算法·机器学习
CoovallyAIHub4 小时前
YOLO26学界首评:四大革新点究竟有多强?
深度学习·算法·计算机视觉
万涂幻象4 小时前
一篇搞懂:飞书多维表格、n8n、Dify 等自动化工作流里的 Webhook 到底是个啥
人工智能