YOLO-World：实时开放词汇对象检测（YOLO-World: Real-Time Open-Vocabulary Object Detection）

摘要

YOLO（You Only Look Once）系列检测器已经成为高效实用的工具。然而，它们依赖于预定义和训练的对象类别，限制了它们在开放场景中的适用性。针对这一限制，我们引入了YOLO-World，这是一种创新方法，通过视觉语言建模和大规模数据集的预训练来增强YOLO的开放词汇检测能力。具体来说，提出了一种新的可重参数化的视觉语言路径聚合网络（RepVL-PAN）和区域-文本对比度损失，以促进视觉和语言信息之间的交互。我们的方法在零拍摄方式下以高效率检测广泛的对象方面表现出色。在具有挑战性的LVIS数据集上，YOLO-World在V100上实现了35.4 AP和52.0 FPS，它在准确性和速度方面优于许多最先进的方法。此外，经过微调的YOLO-World在几个下游任务上实现了卓越的性能，包括对象检测和开放词汇实例分割。

我们的主要贡献可以归纳为三个方面：

（1）·我们推出了YOLO-World，这是一款尖端的开放词汇对象检测器，具有高效率，适用于现实世界的应用。

（2）我们提出了一个可重新参数化的视觉语言PAN来连接视觉和语言特征，并为YOLO-World提出了一个开放词汇区域文本对比预训练方案。

（3）大规模数据集表现出强大的零触发性能，在LVIS上以52.0 FPS达到35.4 AP。预训练的YOLO-World可以轻松适应下游任务，例如开放词汇实例分割和引用对象检测。此外，YOLO-World的预先训练的权重和代码将开源，以促进更多的实际应用。

1、代码和数据集

1.1 代码链接：AILab-CVC/YOLO-World: $CVPR 2024$ Real-Time Open-Vocabulary Object Detection

1.2 数据集

**预训练数据集：**Objects 365（V1），GQA ，Flickr ，CC3M。

**验证集：**LVIS数据集

2、要解决的问题

2.1 目标检测的局限性

尽管目标检测方法取得了成功，但它们仍然有限，因为它们只能处理具有固定词汇的目标检测，例如，COCO 数据集中的80个类别。一旦对象类别被定义和标记，经过训练的检测器只能检测那些特定的类别，从而限制了开放检测器的能力和适用性。

最近的研究已经探索了流行的视觉语言模型，以通过从语言编码器（例如BERT $5$ ）中提取词汇知识来解决开放词汇检测。然而，由于训练数据的稀缺性，这些基于提取的方法受到很大限制，其中词汇的多样性有限，这些方法仍然难以在现实场景中进行检测，这受到两个方面的影响：（1）计算负担重，（2）边缘设备部署复杂。

2.2 传统目标检测

当前的目标检测研究主要集中在固定词汇上（闭集）检测，其中对象检测器在具有预定义类别的数据集上训练，例如COCO数据集和Objects 365数据集，然后检测固定类别集合内的对象。这些方法不检测固定词汇表之外的对象，泛化能力较弱。

2.3 开放词汇对象检测

然而，开放词汇设置可以评估检测器检测和识别新对象的能力，由于在有限的数据集和词汇上进行训练，它仍然局限于开放场景，并且缺乏对其他领域的泛化能力。

图2.与检测范式的比较。（a）传统对象检测器：这些对象检测器只能检测训练数据集预定义的固定词汇表内的对象，例如COCO数据集的80个类别 $26$ 。固定词汇表限制了开放场景的扩展。（b）以前的开放词汇表检测器：以往的方法倾向于开发大而重的检测器来进行开放词汇检测，这些检测器直观上具有很强的能力。此外，这些检测器同时编码图像和文本作为预测的输入，（c）YOLO-World：我们展示了轻量级检测器的强大开放词汇表性能，例如YOLO检测器 $20，42$ ，这对现实世界的应用具有重要意义。我们提出了一种基于"先检测后检测"的高效推理模式，用户根据需要生成一系列提示，这些提示将被编码成离线词汇表，然后可以重新参数化为模型权重，以便部署和进一步加速。

3、提出的创新点

在本文中，我们提出了YOLO-World，旨在实现高效的开放词汇对象检测，并探索大规模的预训练方案，将传统的YOLO检测器提升到一个新的开放词汇世界。与以前的方法相比，所提出的YOLOWorld具有非常高的效率，推理速度快，易于部署到下游应用中。具体来说，YOLO-World遵循标准YOLO架构，并利用预训练的CLIP 文本编码器对输入文本进行编码。我们进一步提出了可重新参数化的视觉语言路径聚合网络（RepVL-PAN）来连接文本特征和图像特征，以获得更好的视觉语义表示。在推理期间，可以移除文本编码器，并且可以将文本嵌入重新参数化为RepVL的权重，PAN用于高效部署。。

此外，我们探索了一种提示然后检测的范式，以进一步提高现实场景中开放词汇对象检测的效率。如图2所示，传统的对象检测器集中在固定词汇上（闭集）检测与预定义的和训练的类别。虽然以前的开放词汇检测器值得注意的是，这些方法倾向于采用具有重骨架的大型检测器，例如Swin-L $32$ ，增加开放性词汇量。相反，（图2（c））首先对用户的提示进行编码以构建离线词汇表，并且词汇表随不同的需求而变化。高效的检测器可以在不重新编码提示的情况下即时推断离线词汇。对于实际应用，一旦我们训练了检测器，即YOLO-World，我们可以对提示或类别进行预编码，以构建离线词汇表，然后将其无缝集成到检测器中。

图3. YOLO-World的整体架构。与传统的YOLO检测器相比，YOLO-World作为开放词汇检测器，采用文本作为输入。文本编码器首先对输入文本进行编码输入文本嵌入。然后图像编码器将输入图像编码为多尺度图像特征，并且所提出的RepVL-PAN利用图像和文本特征的多层次跨模态融合。最后，YOLO-World预测回归的边界框和对象嵌入，以匹配输入文本中出现的类别或名词。

3.1.训练前公式化：区域-文本对

本文中，我们将实例注释重新表示为区域-文本对Ω = {，}，其中是区域的对应文本。具体来说，此外，YOLO-World采用图像I和文本T（一组名词）作为输入，并输出预测框{B k}和对应的对象嵌入{}（ ∈ ）。

3.2.模型架构

所提出的YOLO世界的整体架构如图3所示，它由YOLO检测器、文本编码器和可重新参数化的视觉语言路径聚合网络组成（RepVL-PAN）。给定输入文本，YOLO-World中的文本编码器将文本编码为文本嵌入。YOLO检测器中的图像编码器从输入图像中提取多尺度特征。然后我们利用RepVL-PAN通过利用图像特征和文本嵌入之间的跨模态融合来增强文本和图像表示。

**YOLO检测器。**YOLO-World主要基于YOLOv 8 开发，其中包含一个作为图像编码器的Darknet骨干，一个用于多尺度特征金字塔的路径聚合网络（PAN），以及一个用于边界框回归和对象嵌入的头部。

文本编码器。 给定文本T，我们采用CLIP 预训练的Transformer文本编码器来提取相应的文本嵌入W = TextEncoder （T）∈ ，其中C是名词的数量，D是嵌入维数。与纯文本语言编码器相比，CLIP文本编码器提供了更好的视觉语义功能，可以将视觉对象与文本连接起来当输入文本为标题或指称表达时，采用简单n-gram算法提取名词短语，并将其送入文本编码器。

文本对比头。 在以前的工作之后，我们采用具有两个3×3 convs的解耦头来回归边界框和对象嵌入，其中K表示对象的数量。我们提出了一个文本对比头，通过以下方式获得对象-文本相似度：

其中L2-Norm（·）是L2归一化，∈ W是第j个文本嵌入。此外，我们添加了具有可学习缩放因子α和移位因子β的仿射变换。L2范数和仿射变换对于稳定区域文本训练都很重要。

**使用在线词汇进行训练。**在训练过程中，我们为每个包含4张图像的马赛克样本构建一个在线词汇T。具体来说，我们从对应的数据集中抽取所有涉及马赛克图像的正名词，并随机抽取一些负名词。每个马赛克样本的词汇最多包含M个名词，M默认设置为80。

**使用离线词汇进行推理。**在推理阶段，为了进一步提高效率，我们提出了使用离线词汇的先检测后检测策略。如图3所示，用户可以定义一系列自定义提示，其中可能包括标题或类别。然后我们利用文本编码器对这些提示进行编码并获得离线词汇嵌入。离线词汇表可以避免对每个输入进行计算，提供了根据需要调整词汇表的灵活性。

3.3.可重新参数化的视觉语言PAN

图4. RepVL-PAN的图示。拟议的RepVLPAN采用文本引导CSPL层（T-CSPL层）将语言信息注入图像特征，并采用图像池注意力（I-Pooling Attention）增强图像感知文本嵌入。

图4示出了所提出的RepVL-PAN的结构，其遵循中自上而下和自下而上的路径，以建立具有多尺度图像特征{C3，C4，C5}的特征金字塔{P3，P4，P5}。此外，我们提出了文本引导的CSPL层（T-CSPL层）和图像集中注意力（I-Pooling Attention）为了进一步增强图像特征和文本特征之间的交互，在推理过程中，离线词汇嵌入可以重新参数化为卷积层或线性层的权重以供部署。

文本引导的CSPL层。 如图4所示，跨级部分层在自顶向下或自底向上的融合之后，我们扩展了CSPL层，具体地，给定文本嵌入W和图像特征Xl ∈ （l ∈ {3，4，5}），我们采用最后一个暗瓶颈块后的最大sigmoid注意力，通过以下方式将文本特征聚合为图像特征：

其中更新后的与跨阶段特征连接作为输出。δ表示sigmoid函数。

图像池注意力。 为了增强具有图像感知信息的文本嵌入，我们通过提出图像池注意力来聚合图像特征以更新文本嵌入。我们不是直接对图像特征使用交叉注意力，而是利用多尺度特征的最大池化来获得3 × 3区域，从而总共产生27个补丁标记∈ 。然后通过以下方式更新文本嵌入：

4、结论与不足

我们提出了一个前沿的实时开放词汇检测器YOLO-World，旨在提高现实世界应用中的效率和开放词汇能力。本文将流行的YOLO重塑为开放词汇预训练和检测的视觉语言YOLO架构，并提出了RepVL-PAN，它将视觉和语言信息与网络连接起来，并可以重新参数化以实现高效部署。我们进一步提出了有效的预实验证明YOLO-World在速度和开放词汇性能方面的优越性，并表明视觉语言预训练在小模型上的有效性，我们希望YOLO-World能够成为解决现实世界开放词汇检测的新基准。