最新开源！协同多视图和跨模式对比学习以增强3D表示：MIXCON3D

作者：巴巴塔 | 来源：3DCV

1、导读

由于3D数据获取成本高昂，现有的3D数据集的多样性和复杂性有限。为了解决数据稀缺的问题，最近的研究开始利用训练良好的2D基础模型来学习3D形状。这些方法主要建立在CLIP模型的基础上，通过训练大规模的图像-文本对来学习知识，并在零样本3D识别任务中取得了显著的性能提升。然而，现有方法主要关注单个模态的特征对齐，忽视了不同模态和视角之间的复杂关系。因此，我们提出了一种新的联合表示对齐方法，通过创建图像和点云的组合表示来丰富传统的三模态表示，从而更准确地描述真实世界的3D对象，并增强文本对齐。此外，本文还探索了不同的训练方法，建立了一个强大的基线模型，并在多个基准数据集上进行了广泛的实验证明了方法的有效性。

2、研究思路

本研究的研究思路主要包括以下几个方面：

基于CLIP模型的三维形状理解：借鉴CLIP模型在图像理解方面的成功，本研究将CLIP模型应用于三维形状理解。通过在网络规模的数据上进行训练，CLIP模型可以学习到丰富的知识，有助于三维形状的学习。
图像和点云的联合表示对齐：本研究提出了一种图像和点云的联合表示对齐机制，将二维和三维传感器捕捉到的互补信息进行聚合，并与文本特征进行对齐，从而提高了三维表示的准确性。
多视角图像的利用：本研究利用多视角图像全面反映了真实的三维世界，并提高了图像的表示质量。通过利用多视角图像，可以更好地对齐点云和图像，进一步提升了三维表示的效果。通过以上研究思路，本研究成功解决了三维表示中存在的问题，提出了一种新颖的方法，能够更好地利用多模态和多视角信息，提高三维物体的理解能力。

3、研究内容

MixCon3D，通过将多视角图像和跨模态对比学习相结合，提升了三维物体的表示能力。针对现有的对比学习方法主要关注单个模态的特征对齐问题，提出了一种新的联合表示对齐方法，将图像和点云的特征进行融合，从而更准确地描述真实世界中的三维物体，并增强文本对齐能力。此外，还对三维对比学习的不同训练策略进行了全面的研究，建立了一个性能更好、具有更好泛化能力的基准模型。

4、方法

MixCon3D是一种结合多视角和跨模态对比学习的方法，用于增强三维表示。它通过从二维图像和三维点云中提取特征，构建统一的表示，从而更全面地描述真实世界的三维对象，并通过添加对比损失来增强与文本的对齐。此外，MixCon3D通过从多视角图像中提取特征，确保对三维对象的全面捕捉，从而加强跨模态对齐。通过对训练过程（包括批量大小、温度参数和学习率调度等）进行仔细的研究，我们建立了一个先进的训练指南。这不仅稳定了训练过程，还提高了性能。

4.1、图像-文本-3D对比学习

首先回顾了图像-文本-3D对比学习的基本原理。通过利用从网络上爬取的大量图像-文本对，CLIP模型展示了出色的开放世界图像理解能力。通常情况下，给定批量的图像-文本对 ${ ( x i I , x i T ) } i = 1 N \left\{(x_{i}^{I},x_{i}^{T})\right\}_{i=1}^{N}$ {(xiI,xiT)}i=1N以及（image, text）编码器( $( f I , f T ) (f^{I} ,f^{T})$ (fI,fT)和相应的投影头 $( g I , g T ) (g^{I} ,g^{T})$ (gI,gT)，CLIP通过对比损失函数 $L I ↔ T \mathcal{L}^{I\leftrightarrow T}$ LI↔T进行训练，具体如下：

其中 $τ \tau$ τ是可学习的温度参数， $z i I = g I ∘ f I ( x i I ) / ∥ g I ∘ f I ( x i I ) ∥ z_{i}^{I}=g^{I}\circ f^{I}(x_{i}^{I})/\left\|g^{I}\circ f^{I}(x_{i}^{I})\right\|$ ziI=gI∘fI(xiI)/∥ ∥gI∘fI(xiI)∥ ∥， $z i T = g T ∘ f T ( x i T ) / ∥ g T ∘ f T ( x i T ) ∥ z_{i}^{T}=g^{T}\circ f^{T}(x_{i}^{T})/\left\|g^{T}\circ f^{T}(x_{i}^{T})\right\|$ ziT=gT∘fT(xiT)/∥ ∥gT∘fT(xiT)∥ ∥ 是投影头输出的 $L 2 \mathrm {L}2$ L2归一化的(image,text)特征。由于3D数据集的规模非常有限，先前的研究利用预训练的CLIP图像和文本嵌入空间来训练具有开放世界识别能力的本地3D模型 $g P ∘ f P g^{P}\circ f^{P}$ gP∘fP（包括3D编码器 $f P f^{P}$ fP 和投影头 $g P g^{P}$ gP）。由于CLIP是在更大规模的数据上进行预训练并且更好地对齐，因此在训练过程中，其图像模型 $g I ∘ f I g^{I}\circ f^{I}$ gI∘fI和文本模型 $g T ∘ f T g^{T}\circ f^{T}$ gT∘fT 被冻结。具体来说，给定批量 $N N$ N的输入图像 $x i T x_{i}^{T}$ xiT，文本 $x i T x_{i}^{T}$ xiT和点云 $x i P x_{i}^{P}$ xiP三元组 ${ ( x i I , x i T , x i P ) } i = 1 N \left\{(x_{i}^{I},x_{i}^{T},x_{i}^{P})\right\}$ {i=1}^{N} {(xiI,xiT,xiP)}i=1N （因此被称为图像-文本-3D），3D模型 $g P ∘ f P g^{P}\circ f^{P}$ gP∘fP被训练以将点云表示 $z i P = f P ( x i P ) / ∥ f P ( x i P ) ∥ z$ {i}^{P}=f^P(x_{i}^{P})/\left\|f^P(x_{i}^{P})\right\| ziP=fP(xiP)/∥ ∥fP(xiP)∥ ∥ 与CLIP嵌入空间对齐。在这种情况下，优化目标变为：

4.2、重新审视训练方法

在重新审视训练方法之前，我们需要了解一下ULIP和OpenShape的训练方法。这两种方法都是基于对比学习的图像-文本-3D对齐的范式。ULIP的训练方法采用了共享温度参数和批量大小的方式，而OpenShape则采用了共享批量大小和学习率的方式。这些方法在3D表示学习中取得了显著的性能提升。然而，我们发现这些训练方法打在一些方面仍有改进的空间。具体来说，我们提出了以下几点改进：

批量大小（Batchsize）：对比学习受益于较大的批量大小。因此，我们建议增加批量大小以提高性能。
学习率调度（Learning Rate Schedule）：我们建议采用余弦衰减（Cosine Decay）的学习率调度方式，这种方式可以更好地控制模型的学习速度。
温度参数（Temperature Parameter）：我们建议将温度参数设置为可学习的参数，以便模型可以自适应地调整对比损失的权重。
预热（Warm up）：我们建议在训练的前几个epoch中进行预热，即逐渐增加学习率，以帮助模型更快地收敛。
指数移动平均（EMA）：我们建议使用指数移动平均来平滑模型的更新，以提高模型的稳定性和泛化能力。通过这些改进，我们可以显著提高基线模型的性能和泛化能力。

4.3、联合表示对齐

在MixCon3D中，我们引入了一种新的联合表示对齐方法，即图像-3D到文本的联合表示对齐。这个机制通过创建图像和点云的新组合表示来丰富传统的三模态表示，从而提供更准确的真实世界3D对象描述，并增强文本对齐。具体而言，我们在冻结的CLIP编码器上添加了另一个图像到文本的对齐损失 $L P ↔ T \mathcal{L}^{P\leftrightarrow T}$ LP↔T，并在其上添加了一个可学习的投影头。通过我们的联合对齐损失，我们发现 $L P ↔ T \mathcal{L}^{P\leftrightarrow T}$ LP↔T损失能够进一步提高性能，突显了图像和点云表示融合的关键作用。

4.4、多视图机制的协同作用

MixCon3D的方法，通过结合多视角和跨模态对比学习，以最大化图像、文本和点云之间的对比学习的效果和潜力。在这种方法中，多视角图像的特征被用来提供更全面的三维物体表示。具体而言，给定一组多视角图像 $x i I = { x ( i , j ) I } j = 1 M x_{i}^{I} = \left \{x_{(i,j)}^{I}\right \}$ {j=1}^{M} xiI={x(i,j)I}j=1M ，对应于文本描述 $x i T x$ {i}^{T} xiT和点云 $x i P x_{i}^{P}$ xiP ，作者使用从各个视角提取的特征zI (i,j)来替换单视角图像特征 $z i I z_{i}^{I}$ ziI。

为了聚合多视角信息，作者采用了视角池化的方法。通过这种方式，可以获得更全面的三维物体表示，从而提高了对三维物体的描述能力。这种多视图机制与之前的ULIP和OpenShape方法不同，ULIP和OpenShape方法在创建数据三元组时会从渲染的多视角图像中采样一个图像，但在提取图像特征时只使用了这个采样的图像，这样只能编码三维物体的部分方面。而MixCon3D方法则充分利用了从多视角图像中累积的特征，以获得更全面的三维物体表示。

5、实验结果

本研究采用了混合对比学习方法（MixCon3D）来增强三维表示。具体而言，我们提出了一种新颖的联合表示对齐方法，通过创建图像和点云的组合表示来丰富传统的三模态表示，从而更准确地描述真实世界的三维对象并增强文本对齐。此外，我们还整合了多视图图像，提供了更全面的表示。我们还对三维对比学习范式的各种训练方法进行了全面的研究，建立了一个具有改进性能和泛化能力的强基线。我们在三个代表性基准测试上进行了大量实验证明，我们的方法在具有挑战性的1,156个类别的Objaverse-LVIS数据集上的性能比基线提高了5.7%。我们还展示了我们方法在文本到三维检索和点云字幕生成等更多应用中的有效性。

6、结论

通过将多视角和跨模态对比学习相结合，我们提出了一种名为MixCon3D的方法，用于增强三维表示。该方法通过创建图像和点云的新组合表示，丰富了传统的三模态表示，从而更准确地描述了真实世界的三维对象，并增强了文本对齐。