FineLIP：突破 CLIP 文本长度限制，解锁长文本与图像的细粒度对齐

研究背景

CLIP模型的成功与局限性：CLIP作为开创性的视觉-语言模型，在多个领域和下游任务中取得了显著成功。然而，其文本编码器只能处理最多77个文本标记，限制了对长且细节丰富的描述的处理能力。此外，CLIP主要依赖于损失设计来对齐全局视觉和文本特征，限制了对细节的捕捉能力，难以应对需要细粒度分析的任务。
长文本描述的需求：随着研究的发展，人们发现图像通常包含比短描述更丰富的视觉细节，包括颜色、位置、大小等复杂关系和属性。因此，新的数据集开始引入，将图像与更长、更详细的描述配对，这促使需要探索将扩展描述集成到CLIP风格模型中的方法。

图1展示了 FineLIP 在长文本到图像检索任务中的优势。图中比较了 CLIP、Baseline 和 FineLIP 在 Urban1k 数据集上的检索结果，展示了前 5 个检索结果及其相似性分数。CLIP 因为 77 个标记的限制，无法处理长文本中的关键信息（图中用粗体标注的部分被忽略），导致检索结果不准确。相比之下，FineLIP 通过扩展文本长度限制和引入细粒度的跨模态对齐，能够更准确地捕捉长文本中的细节信息，从而在检索任务中表现更优。图中用绿色框标记了正确的检索结果，直观地展示了 FineLIP 在处理长文本时的优越性。

创新点

突破文本长度限制：FineLIP通过位置嵌入拉伸和自适应标记细化模块（ATRM）来处理更长的文本输入，突破了CLIP模型原有的77个标记限制，使模型能够处理更长、更详细的描述。
细粒度跨模态对齐：提出了一个新的标记到标记对齐策略，充分利用局部视觉和文本特征，显著提高了视觉和文本模态之间的细粒度对齐能力，从而更有效地提取现有方法容易忽略的细微细节。

研究方法

整体架构

图2展示了 FineLIP 的整体架构，描述了图像和文本输入如何经过处理以实现细粒度的跨模态对齐。图像和文本分别通过 CLIP 的视觉编码器和文本编码器生成初始嵌入，这些嵌入随后进入自适应标记细化模块（ATRM），对视觉和文本标记进行动态聚合，以提升信息密度。经过 ATRM 处理后的标记被输入到跨模态交互模块（CLIM），通过标记到标记的细粒度对齐，捕捉图像和文本之间的详细对应关系。整个流程通过优化三元组损失函数，确保正样本对的特征更接近，负样本对的特征更分离，从而实现更精准的跨模态匹配。

位置嵌入拉伸

CLIP 模型的文本编码器原本只能处理最多 77 个标记，这限制了其对长文本的处理能力。为了突破这一限制，FineLIP 采用了 位置嵌入拉伸 技术。具体来说：

CLIP 的位置嵌入是基于绝对位置的，因此无法直接处理超过 77 个标记的文本。
FineLIP 保留了前 20 个位置嵌入，因为这些位置在 CLIP 的预训练过程中已经被充分训练。
对于超过 20 个位置的部分，FineLIP 使用一种自适应插值方法，将位置嵌入拉伸到原始长度的 4 倍，从而支持最多 248 个标记的文本输入。
这种方法在扩展文本长度的同时，尽量保留了 CLIP 预训练过程中学到的跨模态对齐能力。

自适应标记细化模块（ATRM）

为了进一步提升模型对局部信息的捕捉能力，FineLIP 引入了 自适应标记细化模块（ATRM）。该模块的作用是对图像和文本标记进行动态聚合，生成更具信息量的表示：

在 CLIP 模型中，图像和文本的局部标记在最终层可能仍然存在一定的模糊性，这会限制跨模态对齐的精度。
ATRM 的核心思想是通过聚合标记来减少模糊性，同时避免信息丢失。具体来说：
- 输入是一组标记（例如图像的视觉标记或文本的词标记），每个标记的维度为 (d)。
- ATRM 通过学习一个可训练的矩阵 (W_{\text{ref}})，将原始标记集动态聚合为一组更少但更具信息量的标记。
- 聚合比例（即保留的标记数量与原始标记数量的比率）默认设置为 0.2，以在信息密度和计算效率之间取得平衡。
- 聚合过程是完全可微分的，可以无缝集成到端到端的训练框架中。
- ATRM 对图像和文本标记分别进行处理，但两者的架构共享，只是参数不同。

细粒度跨模态对齐模块（CLIM）

FineLIP 的核心创新之一是 细粒度跨模态对齐模块（CLIM），用于实现视觉和文本标记之间的精确对齐：

CLIM 的目标是捕捉图像和文本之间的细微关系，例如空间关系和语义关系。
在 ATRM 生成的精炼标记基础上，CLIM 计算了每个视觉标记与每个文本标记之间的余弦相似性，从而捕捉图像和文本中特定部分之间的对应关系。
为了获得整体的对齐分数，CLIM 使用了池化策略，包括图像到文本和文本到图像的双向相似性分数：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> R ( I , T ) = 1 P ′ ∑ i = 1 P ′ max ⁡ j S ( v i ′ , t j ′ ) + 1 M ′ ∑ j = 1 M ′ max ⁡ i S ( t i ′ , v j ′ ) R(I, T) = \frac{1}{P'} \sum_{i=1}^{P'} \max_j S(v'_i, t'j) + \frac{1}{M'} \sum{j=1}^{M'} \max_i S(t'_i, v'_j) </math>R(I,T)=P′1i=1∑P′jmaxS(vi′,tj′)+M′1j=1∑M′imaxS(ti′,vj′)
其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ′ P' </math>P′ 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> M ′ M' </math>M′ 分别是精炼后的视觉和文本标记数量， <math xmlns="http://www.w3.org/1998/Math/MathML"> S ( v i ′ , t j ′ ) S(v'_i, t'_j) </math>S(vi′,tj′)是视觉标记 <math xmlns="http://www.w3.org/1998/Math/MathML"> v i ′ v'_i </math>vi′ 和文本标记 <math xmlns="http://www.w3.org/1998/Math/MathML"> t j ′ t'_j </math>tj′ 之间的相似性。
为了优化对齐，FineLIP 使用了 三元组边际损失（Triplet Marginal Loss），确保正样本对的相似性分数超过负样本对的分数。这种损失函数可以更有效地优化图像到文本和文本到图像的双向对齐。

实验总结

数据集与任务：在Urban1k和DOCCI数据集上进行了零样本长描述跨模态检索和长文本到图像生成任务的评估。这些数据集包含长且详细的描述，适合评估FineLIP的性能。
实验结果：FineLIP在所有指标上均优于现有方法，包括Baseline、SPARC、LAPS、TULIP和Long-CLIP。例如，在Urban1k数据集上，使用B/16作为骨干网络时，FineLIP在图像到文本检索（I2T）任务中R@1指标达到了0.907，比Baseline模型的0.859提高了近5%。在长文本到图像生成任务中，FineLIP也表现出色，生成的图像能够准确捕捉长描述中的复杂细节。

消融研究：通过消融研究验证了FineLIP中不同组件的有效性。结果表明，位置嵌入拉伸、ATRM和CLIM都是提高模型性能的关键因素。例如，仅使用CLIM时，I2T检索的R@1指标为0.854，而同时使用ATRM（图像）和CLIM时，R@1指标提高到了0.893，同时使用ATRM（图像和文本）和CLIM时，R@1指标进一步提高到了0.907。