【无标题】

图一：我们的方法与其他单级或基于clip的方法之间的比较。(a) 以前的单阶段方法，它使用可训练的 ImageNet [11] 预训练主干，具有可训练的分类和分割过程。(b) 以前基于 CLIP 的方法，这是一种多阶段方法，它使用 Frozen CLIP 模型生成伪标签并训练单个 ImageNet 预训练的分割模型。(c) 我们提出的 WeCLIP 是一种单阶段方法，它使用冻结的 CLIP 模型作为具有可训练分割过程的主干，显着降低了训练成本。(d) 我们提出的 WeCLIP+，它结合了 Frozen CLIP 和 DINO 来构建一种新的单阶段方法。(e) PASCAL VOC 2012 val集上不同方法的性能比较，WeCLIP 和 WeCLIP+ 的可学习参数更少，但性能更高。

1.引言

然而，CLIP 模型是一种图像语言模型，它将全局图像级特征与相应的文本特征对齐。很难确保从图像中提取详细的语义信息。我们的CLIP有一个纯粹的基于clip的主干，它严重依赖于其冻结的特征。一旦特征的表示不准确，就无法保证以下学习过程。

因此，我们设计了一个高级版本 WeCLIP+，通过结合冻结的 DINO [33] 和冻结的 CLIP 来构建更强的弱监督语义分割主干，如图 1(d) 所示。与 WeCLIP 相比，WeCLIP+ 有两个主要改进：首先，证明通过自监督学习训练的 DINO [33] 模型可以提供显式语义信息 [34]、[35]、[36]，无需任何手动注释。因此，引入的冻结DINO补充了冻结的CLIP，以获得更详细的语义表示。WeCLIP+ 只需要冻结的 CLIP 和冻结的 DINO 模型的最后一层的特征进行解码。通过这种方式，WeCLIP+ 将可学习参数的数量显着减少到 WeCLIP 的 58% 和以前的方法的 24%。其次，我们通过解码 CLIP 和 DINO 特征的组合来重新加权静态 CAM，提供比 RFM 更可靠的在线伪标签，重新设计冻结的 CLIP-DINO CAM ReFinement Module (RFM+)。通过这样的设计，一方面，冻结的CLIP由冻结的DINO补充，为解码器构建一个具有较少可学习参数的增强主干。图1(e)显示，与其他框架相比，WeCLIP和WeCLIP+的可学习参数更少，但性能更高，WeCLIP+的性能明显优于WeCLIP。另一方面，我们提出的两个模块也可以相互受益：细化的伪标签为训练解码器提供更准确的监督，并且经过训练的解码器为 RFM+ 构建更可靠的特征关系以生成准确的伪标签。

大量实验表明，我们的方法在 PASCAL VOC 2012 和 MS COCO 数据集上都达到了新的最先进的性能，并且大大优于其他方法。此外，我们的方法在完全监督的语义分割方面也取得了令人满意的性能。我们的贡献总结如下：

我们构建了强大的单阶段管道 WeCLIP 和高级版本 WeCLIP+，用于弱监督语义分割，而无需微调预训练模型，显着降低了训练成本。我们CLIP彻底解释了多层冻结的CLIP特征，用我们设计的光解码器分割对象。我们的 WeCLIP+ 使用冻结的 DINO 来补充冻结的 CLIP 特征，构建增强的单阶段解决方案。
通过互补的 DINO 特征，我们的 CLIPDINO 主干可以提取丰富且高度紧凑的语义信息，因此 WeCLIP+ 只需要来自冻结 CLIP 和 DINO 模型的最后一层的特征进行解码，将可学习参数的数量显着减少到 WeCLIP 的 58%。
为了克服冻结主干仅提供静态伪标签的缺点，我们设计了一个冻结的 CLIP-DINO CAM 细化模块 (RFM+) 来动态更新初始 CAM，提供不断改进的监督来训练我们的模型。
训练成本更低，我们的方法明显优于以前的方法，达到了新的弱监督语义分割的最先进性能（VOC 2012 测试集上 mIoU：83.9%，COCO val 集上为 56.3%）。此外，我们的方法在完全监督的语义分割方面也显示出巨大的潜力。

2.1 Weakly Supervised Semantic Segmentation

多阶段解决方案的关键是生成高质量的伪标签。例如，RIB [18] 在分类网络中设计了一个边际损失来减少信息瓶颈，从图像级监督中产生更好的像素级响应。Du等人[22]提出了一种像素到原型的对比策略，以施加特征语义一致性来生成更高质量的伪标签。MCTformer[9]在变压器架构中设计了多类标记，以产生特定于类的注意响应，以生成精细化的CAM。然而，AREAM [38] 发现深度变换器层中的过度平滑会导致 CAM 中的背景噪声。因此，AREAM 使用浅亲和矩阵监督高级注意力，确保高级注意力可以专注于语义关系。最近的一些多阶段方法试图为此任务引入 CLIP。CLAMS[24]利用CLIP模型激活更完整的目标区域，抑制高度相关的背景区域。CLIP-ES[26]提出使用CLIP中的softmax函数来计算GradCAM[39]。通过精心设计的文本提示，CLIP 的 GradCAM 提供了可靠的伪标签来训练分割模型。基于CLIP-ES[26]，PSDAM[40]提出了一种基于原型的二次判别像素挖掘框架来挖掘更多的二次判别像素，从而提供高质量的伪标签。同时，CPAL [41] 专注于通过减少偏差来增强原型，以捕获更好的空间语义关系，这也旨在提供高质量的伪标签。此外，WeakCLIP [42] 提出使用可学习的文本提示来获得更好的文本图像匹配，用于高质量的伪标签。此外，S2C [43] 引入了 Segment Anything Model (SAM) [44]，这是一种基于提示的分割的强大基础模型，将其知识转移到分类器以生成更好的伪标签。除了生成高质量的伪标签外，另一种解决方案是从伪标签中提取可靠的信息进行分割训练。例如，OCR [45] 采用组排序机制将候选外像素细化为适当的语义像素。

以前的单阶段解决方案采用 ImageNet [11] 预训练模型作为骨干，同时学习分类和分割任务，它们中的大多数专注于通过提供更准确的监督或约束其学习来改进分割。例如，RRM[12]提出选择可靠的像素作为分割分支的监督。1Stage[13]设计了一个局部一致性细化模块，直接从图像级标签生成语义掩码。AA&AR [16] 提出了一种自适应亲和力损失来增强分割分支中的语义传播。ASDT [46] 引入了一种双教师单学生网络架构来挖掘完整的对象区域和判别对象特征，以获得更可靠的在线伪标签。SLRNet[47]聚合输入的多视图特征，以帮助网络学习更精确的在线伪标签。此外，AFA [14] 设计了一个亲和分支来细化 CAM 以生成更好的在线伪标签。ToCo [48] 提出了令牌对比学习来减轻在线 CAM 生成中的过度平滑，从而为分割提供更好的监督。FSR[49]提出了一种渐进特征自强化方法来加强不确定区域的语义，特别是对于对象边界和错误分类的类别，以提高最终性能。DuPL[50]提出了一种双学生框架来构建单阶段解决方案，减少了在线CAM的过度激活率，有效地提高了其质量。SeCO [51] 设计了一种单独且征服的策略来处理具有双教师单学生架构的频繁共现对象问题。

CLIP模型在多阶段解决方案中表现出了很好的效果，但将其作为单阶段解决方案，即直接学习分割具有图像级监督的对象，没有探索

2.2 Fully Supervised Semantic Segmentation

完全监督的语义分割旨在使用像素级标签作为监督来分割对象。以前的大多数方法都基于全卷积网络(FCN)[52]架构，如DeepLab[53]、PSPNet[54]和UperNet[55]。基于这些基本方法，IDRNet[56]研究了共现的视觉模式来聚合更有意义的上下文信息。Contextrast [57] 提出了上下文对比学习来帮助网络掌握局部和全局语义特征表示。另一方面，最近的方法引入了视觉转换器[58]作为骨干，通过构建全局关系来提高性能。例如，PVT[59]使用金字塔视觉转换器进行语义分割。Swin[60]在视觉转换器中设计了一种基于窗口的注意机制，有效地提高了注意力计算。他们添加了一个 UperNet 头 [55] 进行语义分割。MaskFormer[61]和Mask2Former[62]通过结合变压器解码器和像素解码器提出了通用的图像分割体系结构。无论是完全监督还是弱监督语义分割，几乎所有的分割模型都依赖于ImageNet[11]预训练模型，所有的模型参数都需要训练或微调，这需要大量的计算成本，而我们使用冻结的模型，如冻结的CLIP和冻结的DINO模型作为骨干，导致计算的资源要少得多。

图二：我们的 WeCLIP 框架。图像被输入到 Frozen CLIP 图像编码器以生成图像特征，类标签用于构建文本提示，然后输入到 Frozen CLIP 文本编码器以生成文本特征。分类分数是根据池化图像和文本特征之间的距离生成的。使用 GradCAM，我们可以生成初始 CAM Minit。然后，每个变压器块最后一层的冻结图像特征输入到我们的解码器中，生成最终的语义分割预测。同时，来自解码器的亲和图 Af 和多头注意力图 As 从 CLIP 输入到我们的 RFM 中，以建立细化图 R 以改进 Minitas Mf。在后处理之后，它将用作训练解码器的监督。

3 METHOD

3.1 WeCLIP

3.1.1 Overview of WeCLIP

图 2 显示了 WeCLIP 的整个框架，包括四个主要模块：一个冻结的 CLIP 主干（图像编码器和文本编码器）来编码图像和文本，一个用于生成初始 CAM 的分类过程，一个用于生成分割预测的解码器，一个 RFM 来细化初始 CAM 以提供用于训练的伪标签。训练管道分为以下步骤：

首先，将图像输入到CLIP图像编码器中进行图像特征。此外，前景和背景类标签用于构建文本提示，然后输入到 CLIP 文本编码器以生成相应的文本特征。请注意，这里图像和文本编码器在训练期间都被冻结。
然后，通过计算图像特征（池化后）和文本特征之间的距离来生成分类分数。基于分类分数，GradCAM [39] 用于生成初始 CAM。
此外，冻结CLIP图像编码器中每个变压器块最后一层的图像特征被输入到我们提出的解码器中进行最终的分割预测。
同时，来自解码器的中间特征图用于生成亲和图。然后，将亲和映射输入到我们提出的RFM中，该RFM具有冻结CLIP图像编码器每个块的多头注意映射。
最后，RFM 输出一个细化图来细化初始 CAM。在后处理之后，来自细化 CAM 的最终转换伪标签用于监督训练。

3.1.2 Frozen CLIP Feature Decoder

我们使用带有 ViT-B 的冻结 CLIP 编码器作为主干，在训练期间没有优化。因此，如何设计一个解码器，将 CLIP 特征解释为语义特征成为一个核心挑战。我们提出了一种基于变压器架构的光解码器，以CLIP特征作为输入进行语义分割。具体来说，假设输入图像为 I ∈ R3×H×W ,H 和 W 分别表示图像的高度和宽度。在通过CLIP图像编码器后，我们从编码器中每个变压器块的输出生成初始特征映射，其中l表示块的索引。然后，对于每个特征图 F linit，使用单个 MLP 模块生成新的对应特征图 F lnew：

其中 W 1fc 和 W 2fc 是两个不同的全连接层。ReLU(·) 是 ReLU 激活函数

之后，所有新的特征图连接在一起，然后由卷积层处理以生成融合的特征图 Fu：

其中 Fu ∈ Rd×h×w，其中 d、h 和 w 表示特征图的通道维度、高度和宽度。Conv(·) 是一个卷积层，Concat[·] 是连接操作。最后，我们设计了几个顺序多头transformer层来生成最终预测 P：

其中 P ∈ RC×H×W , C 是包括背景的类号。φ(·)表示顺序多头transformer块[58]，每个块包含一个多头自注意模块、前馈网络和两个归一化层，如图2右上角所示。↑是一个上采样操作，将预测映射大小与原始图像对齐。

为了对Eq.(3)中的预测P进行监督，我们从冻结主干的初始CAM生成像素级伪标签。冻结的主干只能提供静态 CAM，这意味着在训练期间无法改进用作监督的伪标签。伪标签中的相同错误导致错误方向上无法纠正的优化。因此，我们设计了冻结的 CLIP CAM ReFinement Module (RFM) 来动态更新 CAM 以提高伪标签的质量。

我们首先遵循[26]来生成初始CAM。对于给定的带有类标签的图像 I，I 被输入到 CLIP 图像编码器。类标签用于构建文本提示并输入到 CLIP 文本编码器。然后，利用提取的图像特征（池化后）和文本特征计算距离，进一步激活softmax函数得到分类分数。之后，我们使用 GradCAM [39] 生成初始 CAM Minit ∈ R(|CI |+1)×h×w，其中 (|CI | + 1) 表示图像 I 中的所有类标签，包括背景。更多细节可以在 [26] 中找到。

为了彻底利用CLIP的先验知识，CLIP模型是固定的。虽然我们发现这种冻结的主干可以为只有图像级标签的初始 CAM 提供强大的语义特征，如图 3(a) 所示，Minit 无法优化，因为它是从冻结的主干生成的，限制了伪标签的质量。因此，如何在训练期间纠正 Minit 成为一个关键问题。我们的直觉是使用特征关系来纠正初始 CAM。然而，我们不能直接使用 CLIP 图像编码器中的注意力图作为特征关系，因为这样的注意力图也是固定的。然而，解码器不断被优化，我们尝试使用其特征来建立特征关系来指导 CLIP 图像编码器的注意力值的选择，保持有用的先验 CLIP 知识和去除噪声关系。通过更可靠的特征关系，可以动态增强 CAM 质量。

具体来说，我们首先根据方程式中的特征图 Fu 生成一个亲和图。公式(2) 从我们的解码器：

其中Fu∈Rd×h×w首先被展平为Rd×hw。Sigmoid(·) 是保证输出范围从 0 到 1 的 sigmoid 函数。 Af ∈ Rhw×hw 是生成的亲和图。T 表示矩阵转置。然后我们从冻结的 CLIP 图像编码器中提取所有多头注意力图，表示为和每个 Al s ∈ Rhw×hw。对于每个 Al s，我们使用 Af 作为参考图来评估其质量：

我们使用上面的 Sl 为每个注意力图计算一个过滤器：

其中 Gl ∈ R1×1，并将其扩展为 Gl e ∈ Rhw×hw 以供进一步计算。我们使用所有 Sl 的平均值作为阈值。如果当前 Sl 小于阈值，则更可靠，我们将其过滤器值设置为 1。否则，我们将过滤器值设置为 0。基于此规则，我们保留高质量的注意力图并删除弱注意力图。然后，我们结合 Af 和上述操作来构建细化图：

其中 Nm 是有效 Al s 的数量，即。然后，按照前面的方法[26]，我们生成细化的CAM:

其中 c 是特定类别的，M cf 是 c 类的细化 CAM。Rnor 是使用行和列归一化从 R 获得的（Sinkhorn 归一化 [63]）。α 是一个超参数。这部分通过一个框掩码指示器[26]来限制细化区域。M cinit 是 c 类在重塑为 Rhw×1 之后的 CAM。

最后，Mf被输入到在线后处理模块，即[14]中提出的像素自适应细化模块，生成最终的在线伪标签Mp∈Rh×w。通过这种方式，我们的 RFM 在我们的解码器中使用更新的特征关系来评估冻结主干中的特征关系以选择可靠的关系。然后，借助每个图像的更可靠的特征关系，可以生成更高质量的 CAM。图 3 显示了使用不同细化方法生成的 CAM 的详细比较。我们的方法比 [26] 和初始 CAM 中提出的静态细化方法生成更准确的响应。

3.1.4 Loss Function

在我们的 RFM 中，我们使用亲和图 Af 来选择注意力图并构建最终的细化图。因此，Af 的有效性直接决定了在线伪标签的质量。考虑到 Af 是在我们的解码器中使用特征图 Fu 生成的，是一个可学习的模块，我们提出了一个 Af 的学习过程，它使用 Mp 中转换后的在线伪标签作为监督。具体来说，Mp 首先被转换为每对像素的像素级亲和力标签：

其中 Oh(·) 是 one-hot 编码，Oh(Mp) ∈ RC×hw,^A ∈ Rhw×hw 是亲和力标签。^A(i, j) = 1 表示像素 i 和 j 具有相同的标签，否则 ^A(i, j) = 0。基于上述标签 ^A 和在线标签 Mp，我们的 WeCLIP 的整个损失函数为：

其中 Lce 是交叉熵损失，Mp ↑∈ RH×W ，λ 是权重参数。P 是方程式中的预测。 (3)。使用方程式。 (10)，为更高质量的伪标签建立了更准确的特征关系。反过来，有了更好的伪标签，建立了更精确的特征关系。因此，我们的解码器和 RFM 可以相互受益以促进训练。

3.2 WeCLIP+

3.2.1 Overview of WeCLIP+

图 4 显示了 WeCLIP+ 的整个框架。与 WeCLIP 相比，WeCLIP+ 有几个改进：首先，主干从冻结的 CLIP 更改为组合冻结的 CLIP 和 DINO，因此图像由 CLIP 图像编码器和 DINO 编码器编码。其次，我们不是使用来自 CLIP 中每个块的所有最后一层的特征，而是仅从冻结 CLIP 和 DINO 中最后一个块的最后一层选择特征作为解码器的输入。第三，利用引入的DINO特征，将RFM增强到RFM+，以更好地修改伪标签。所有其他训练管道都遵循 WeCLIP 中的相同设置，如第 2 节所述。 3.1.1。

3.2.2 Frozen CLIP-DINO Feature Decoder

我们结合冷冻CLIP和冷冻DINO作为WeCLIP+的骨干。与WeCLIP不同，我们只选择冻结CLIP模型和DINO模型的最后一层的特征映射作为解码器的输入，因为来自DINO的特征映射包含足够的语义信息。

具体来说，给定原始图像I∈R3×H×W，由于冻结的CLIP模型和冻结的DINO模型可能有不同的分辨率，例如CLIP模型是ViT-16，而DINO模型是ViT-14，首先将输入图像I分别调整为两个图像Ir1∈R3×h1×w1和Ir2∈R3×h2×w2，其中h1和h2是高度，w1和w2是宽度来表示不同的分辨率。然后将Ir1和Ir2输入到冻结的CLIP图像编码器和DINO模型中，生成两个单独的对应的初始特征映射Finit-clip和Finit-dino:

其中Eclip(·)和Edino(·)分别表示冻结的CLIP图像编码器和冻结的DINO编码器。请注意，Finit-clip 和 Finit-dino 都来自它们对应的编码器的最后一层。

然后，将初始特征输入到 MLP 模块和卷积操作以生成两个新的特征图：

其中Fclip∈Rd×h×w和Fdino∈Rd×h×w。此外，↓ 表示下采样以确保 Fclip 和 Fdino 具有相同的大小。MLP1 和 MLP2 是两个单独的 MLP 模块，它们与等式1共享相同的定义。即 MLP(·) = W 1fc (ReLU(W 2fc (·)))。Conv1(·) 和 Conv2(·) 是两个单独的卷积操作。

之后，Fclip 和 Fdino 被输入到共享transformer层和卷积层以生成它们的预测：

其中 Pclip ∈ RC×H×W 和 Pdino ∈ RC×H×W , φ, Conv 和↑ 与等式3共享相同的定义。请注意，φ(·) 和 Conv(·) 在 Pclip 和 Pdino 之间共享。最后，融合Pclip和Pdino生成最终的预测:

与WeCLIP中的原始解码器相比，新的解码器仅使用Eq.（12）中的两个单独的MLP模块和两个单独的卷积操作，以及Eq.（13）中的共享transformer块。有了这样的设计，我们的WeCLIP+需要的可学习参数比WeCLIP少得多。更重要的是，我们发现共享transformer块可以执行更好的预测。这是因为共享transformer块可以受益于CLIP特性和DINO特性（更多细节，请参见表14）。此外，我们没有引入不同层的特征映射，因为DINO特征可以表示高质量的语义信息[34]。来自CLIP和DINO的最后一层的特征映射包含了足够的信息，可以进行进一步的处理。

图四：我们的 WeCLIP+ 的框架。图像被输入到 Frozen CLIP 图像编码器和 Frozen DINO 以生成两个单独的图像特征图，类标签用于构建文本提示，然后输入到 Frozen CLIP 文本编码器以生成文本特征。分类分数是根据池化图像和文本特征之间的距离生成的。使用 GradCAM，我们可以生成初始 CAM Minit。然后，将冻结的图像特征图输入到共享解码器中，分别生成两个单独的语义分割预测Pclip和Pdino。在融合Pclip和Pdino后，生成最终的预测̃P。同时，来自解码器的亲和图 ̃Af 和来自 CLIP 的多头注意力图 ̃A 被输入到我们的 RFM+ 以建立细化图 ̃R，进一步结合最终预测 ̃P 将 Minit 细化为 ̃Mf。在后处理之后，它将用作训练解码器的监督。

与 Sec. 3.1.3 中的 RFM 类似，我们希望通过可学习的特征图动态校正固定的 CAM。有了新的提出的引入DINO特征的解码器，我们设计了一个增强的RFM，称为冻结CLIPDINO CAM ReFinement Module (RFM+)，以实现更好的在线CAM细化。

具体来说，我们首先将两个特征图连接起来如下：

其中Fcd∈R2d×h×w，Fclip和Fdino来自式(12)。然后，我们可以生成新的亲和图：

使用Acd作为输入，经过Eq.(5)-Eq.(7)，我们可以生成新的细化映射R，细化的CAM定义为:

其中 Rnor 是使用行和列归一化从 R 获得的（Sinkhorn 归一化 [63]）。⊙ 表示 hadamard 产品。P 来自等式(14)，P c ⊙ M cinit 的结果被重新整形为 Rhw×1。请注意，对于这个方程，P 的梯度被切断。

由于Eq.（15）中的Fcd同时包含CLIP特征和DINO特征，因此Eq.（16）中对应的亲和映射add包含更强的成对关系。因此，细化映射R可以为更好的CAM提供更精确的细化信息。此外，我们在Eq.（17）中增加了P项，因为WeCLIP+中的预测比WeCLIP更准确，并且在P的帮助下，概率较小的像素可以被抑制，以确保更自信的细化CAM

最后，按照第3.1.3节的流程，将Mf输入到在线后处理模块，生成最终的在线伪标签fMp∈Rh×w

与WeCLIP中的原始RFM相比，RFM+受益于组合CLIP和DINO的强语义表示。RFM+明显提升了cam的质量，在培训期间提供了更可靠的在线伪标签。图5分别为WeCLIP和WeCLIP+生成的在线伪标签的详细可视化。可以看出，我们的WeCLIP+可以提供更好的在线伪标签。

3.2.4 Loss Function

整个损失函数遵循第3.1.4节的设置，并在WeCLIP+中对新设计进行了一些更改：

其中Lce（·）为交叉熵损失，由式(9)将Mp替换为~Mp生成的A+。Lseg为解码器的损失函数，定义如下：

在式（19）中，Ldice为Dice损失[64]。β是权重参数。Mdino和Mclip分别使用预测Pdino和Pclip表示预测的像素级掩码，即。， Mdino = argmax（Pdino）和Mclip = argmax（Pclip）。与原始WeCLIP中的损失函数相比，我们增加了两个新的损失用于详细监督：一个新的Dice损失用于监督最终预测，两个交叉熵损失分别用于交叉监督基于CLIP和DINO特征的预测。在交叉监督的情况下，两个分支机构可以相互学习信息，做出更好的预测。

4 EXPERIMENT

WeCLIP：我们使用vit16基架构的冷冻CLIP骨干网[68](vitb -16)， N是一个等于12的固定数字。对于PASCAL VOC 2012数据集的训练，将batchsize设置为4，最大迭代设置为30,000。对于MS COCO-2014数据集的训练，我们将batchsize设置为8，最大迭代次数设置为80000。学习率为2e−3，权值衰减为1e−3。

在训练期间，所有图像都裁剪为320 × 320。所有其他设置在训练过程中对两个数据集采用相同的参数：我们使用AdamW[69]作为优化器，Eq.（10）中的λ设置为0.1，我们的解码器中的MLP模块（Eq.(1)）的维数设置为256。在Eq.(3)的φ中，将三个变压器编码器（多头数为8）层级联生成最终的特征映射，每层的输出维数为256。设式(6)中的N0为6。在[26]之后，在Eq.(8)中设α为2。

WeCLIP+：冷冻的CLIP骨干网为viti - b -16架构[68]，冷冻的DINO骨干网采用dinov2 - viti - s -14和dinov2 - viti - b -14[33]。在训练期间，所有图像被裁剪为320 × 320的冷冻CLIP骨干。对于冷冻DINO骨架，所有图像都裁剪为308 × 308。Eq.（19）中的β设为0.1。所有其他设置与原始WeCLIP相同。为了简化表达式，在以下上下文中，使用"vitb - sd"表示CLIP模型为ViTB-16， DINO模型为vitb - s -14。"vitb - bd"表示CLIP型号为vitb -16， DINO型号为vitb -14。

在推理过程中，我们使用多尺度，WeCLIP为{0.75,1.0}，WeCLIP+为{1.0,1.5}。继之前的方法[14]，[48]，[81]之后，我们使用DenseCRF[82]作为后处理方法来细化预测。

4.3 Comparison with State-of-the-art Methods

在表1中，我们将我们的方法与PASCAL VOC 2012数据集上的其他最新方法进行了比较。可以看出，我们的WeCLIP+在val和test sets上分别达到了84.0%和83.9% mIoU，都明显优于原来的WeCLIP和其他单级方法。具体来说，与WeCLIP相比，我们的WeCLIP+在val和测试集上分别增加了7.6%和6.7%的mIoU。此外，CPAL[41]是先前最先进的多阶段方法，也是基于clip的解决方案。我们的方法表现得比它好得多，mIoU分别增加了9.5%和9.2%。更重要的是，WeCLIP+甚至优于S2C[43]，后者利用强大的像素级分割模型SAM (viti - h)[44]作为基线来处理这项任务，WeCLIP+的mIoU分别提高了5.8%和6.4%

表2显示了我们的方法与以前最先进的方法在MS COCO2014 val set上的比较。我们的WeCLIP+实现了新的最先进的性能，达到56.3% mIoU。与其他单级方法相比，WeCLIP+带来了超过9.6%的mIoU增加，这是一个显着的改进。WeCLIP+在训练步骤更少的情况下也明显优于其他多阶段方法。考虑到WeCLIP和WeCLIP+使用的是冷冻主干，它在这项任务中显示出很大的优势。

在表3中，我们在PASCAL VOC 2012数据集上比较了我们的方法和其他最先进的方法之间的训练成本。可以看出，WeCLIP和WeCLIP+都需要较小的GPU内存，而其他方法至少需要12G GPU内存。ToCo[48]的训练时间比我们少，但是它的GPU内存比WeCLIP和WeCLIP+高很多。更重要的是，ToCo[48]的训练时间为4小时，迭代次数为2万次，而WeCLIP和WeCLIP+的训练时间约为5小时，迭代次数为3万次，这也说明了我们方法的训练效率很高。

表4比较了我们的方法与其他单阶段方法的训练和推理成本，与其他单阶段方法相比，我们的方法在效率和性能之间有更好的权衡。值得注意的是，我们的方法比竞争方法具有更少的可学习参数，确保即使是我们最大的配置，WeCLIP+(vitb - ld)，也需要少于12G的GPU内存来进行训练和推理，即只需一个NVIDIA 2080Ti GPU就足够了。此外，我们的方法仍然保持了很高的推理速度，例如，WeCLIP+(ViT-B-Bd)的FPS为57.0，超过了DuPL[50]的46.2 FPS。这种性能和成本之间的良好平衡强调了我们方法的实用性和可扩展性。

在图6中，我们展示了我们的WeCLIP+、WeCLIP和其他方法在PASCAL VOC 2012和MS COCO-2014数据集上的一些定性比较。视觉结果表明，我们的WeCLIP+可以比我们的WeCLIP和ToCo生成更完整的物体细节和精确的边界

表一：PASCAL VOC 2012val 和测试数据集上最先进方法的比较。mIoU (%) 作为评估指标。I：图像级标签； S：显着图； L：语言。mIoU 作为评估指标。如果没有特定的描述，在推理过程中使用多尺度和DenseCRF报告结果

表 2 ： MS COCO-2014 val set 上其他最先进方法的比较。

表 3： PASCAL VOC 2012 数据集的训练成本比较。所有方法都在 NVIDIA RTX 3090 GPU 上运行。

图6。PASCAL VOC 2012和MS COCO-2014 val集上WeCLIP+、WeCLIP和ToCo[48]的定性比较。我们的方法生成了更详细的视觉结果。

表 4 与其他单阶段方法的比较模型参数。分辨率固定为 512 × 512，所有实验均在 NVIDIA RTX 4090 上进行。 "train#params; 表示可训练的参数。

FLOPs用于评估计算机、GPU 或其他计算设备在执行浮点运算时的速度

FPS（Frames Per Second，每秒帧数）通常用于衡量模型的推理速度，即模型在单位时间内能够处理的图像或视频帧的数量。这个指标对于实时应用（如视频流处理、实时目标检测、自动驾驶等）尤为重要，因为它直接影响系统的响应速度和用户体验。

1.引言

2.1 Weakly Supervised Semantic Segmentation

2.2 Fully Supervised Semantic Segmentation