Decomposed Vision-Language Alignment for Fine-Grained Open-Vocabulary Segmentation
2026年5月,arxiv
分解式视觉-语言对齐用于细粒度开放词汇分割
传统分割模型只能识别训练时见过的固定类别(如"人、车、狗")。
开放词汇分割 则允许模型根据任意文本描述来分割图像,包括从未见过的新类别。
比如,你可以让它"把图片里所有穿红色高跟鞋的人分割出来",即使训练时没有"红色高跟鞋"这个组合类别。
视觉-语言对齐:让视觉信息(图像区域/像素)和语言信息(单词/短语)在同一个语义空间中对齐。
例如,图像中一块棕色的毛绒区域,应该与文本"金毛犬的耳朵"对齐,而不是仅仅对齐"狗"。
分解式:指的是不直接把整个物体的视觉特征与整个名词短语对齐,而是将对齐过程拆解成多个层次、多个维度或多个子任务。常见的分解方式包括:
- 层级分解:先对齐大类(动物/狗),再对齐属性(毛色/耳朵形状)。
- 空间-语义分解:将物体拆成部件,分别对齐(如"红色的车身""圆形的车灯")。
- 任务分解:将分割拆成"类别无关的掩码生成" + "掩码区域与文本属性的精对准"。
- 特征通道分解:将视觉特征和文本特征分别投射到多个子空间,各自匹配不同语义属性。
为了让模型能开放词汇地 分割出极其相似的细粒度物体 ,它不再粗放地将整块图像区域和一个名词做一对一对齐,而是把视觉和语言信号分解成更细的要素(比如部件、属性、子类别),在这些细粒度要素之间建立精准的对应关系,从而让分割结果既能听懂任意描述,又能捕捉"多了一颗铆钉""尾巴卷一点"这种微小差异。
摘要
开放词汇分割模型通常难以泛化到未见过的物体类别与属性组合,这是因为细粒度的描述通常被编码为纠缠了多个语义单元的完整句子。我们提出了一个分解式视觉-语言对齐框架,该框架将文本提示显式分解为一个概念标记和多个属性标记,使得每个语义单元能够进行独立的跨模态交互。在特征层面,我们引入了一个特征门控交叉注意力模块,该模块生成属性特定的门控图,以乘法方式融合信息,从而有效强制组合语义。在评分层面,每个标记的相似度在对数空间中进行聚合,产生稳定且可解释的组合匹配。该方法可以无缝集成到现有的基于Transformer的分割架构中,并在细粒度开放词汇分割基准测试中显著提高了对未见属性-类别组合的泛化能力。
理解1
开放词汇分割模型通常难以泛化到未见过的物体类别与属性组合,这是因为细粒度的描述通常被编码为纠缠了多个语义单元的完整句子。
开放词汇分割 :让计算机根据任意文字描述,把图像中对应的物体区域"抠"出来(比如输入"带平屋顶的工业建筑",模型就要标出图中所有符合这个描述的建筑的轮廓)。
难点 :现实中的描述往往包含多个属性,例如"平屋顶 + 工业 + 建筑 "。传统的做法是把整个句子当作一个整体去编码(例如直接编码"平屋顶工业建筑")。这样,属性和类别就被"纠缠"在一起了,模型只能记住特定的组合(比如训练时见过"平屋顶+工业")。一旦遇到训练没见过的组合(比如"平屋顶+商业"),模型就不知道怎么处理,因为它没有学会把"平屋顶"和"工业"分开理解。
理解2
我们提出了一个分解式视觉-语言对齐框架,该框架将文本提示显式分解为一个概念标记和多个属性标记,使得每个语义单元能够进行独立的跨模态交互。
分解式对齐框架 ,核心思想是:把完整的句子拆成独立的小单元,分别处理,然后再用逻辑"与"的方式组合起来。
理解3
在特征层面,我们引入了一个特征门控交叉注意力模块,该模块生成属性特定的门控图,以乘法方式融合信息,从而有效强制组合语义。在评分层面,每个标记的相似度在对数空间中进行聚合,产生稳定且可解释的组合匹配。
具体做法分为三步:
(1) 显式分解(Explicit Decomposition)
- 将文本提示拆成 1个概念标记(类别) + 多个属性标记。
- 例如:"平屋顶工业建筑" → 类别:"建筑" + 属性1:"平屋顶" + 属性2:"工业"。
- 每个标记独立编码,不再纠缠在一起。
(2) 特征门控交叉注意力(Feature-Gated Cross-Attention)
- 在图像特征处理时,让每个属性生成一个"门控图"(好比一个注意力遮罩)。
- 这个门控图会乘法式 地作用于图像特征:只有同时满足所有属性 (平屋顶 且 工业)的区域才能通过,否则被抑制。
- 相当于每个属性都是一个必要条件过滤器,最终保留的是所有条件都满足的区域。
(3) 对数空间"与"评分(Log-Space AND Scoring)
- 在最终打分时,分别计算图像区域与"类别"、"属性1"、"属性2"的匹配概率。
- 将这些概率取对数后相加,再转换回来。这等价于概率的乘法(逻辑"与"),但避免了数值过小和梯度消失的问题。
- 只有类别和所有属性都高概率匹配的区域,才会得到高分。
区别:
(1)
- 传统方法:把"平屋顶+工业+建筑"当成一个整体标签学习。训练时见过"平屋顶+工业",但没见"平屋顶+商业",遇到后者就容易失败,因为模型记住了搭配,而不是理解了"平屋顶"这个属性本身。
- 分解方法:把"建筑"、"平屋顶"、"工业"分开学。测试时遇到"平屋顶+商业",虽然没学过这种组合,但模型分别知道什么是"平屋顶"、什么是"商业"、什么是"建筑",然后通过"与"逻辑组合起来,就能正确识别。
(2)
- 传统方法中,属性语义容易被类别和其他属性"稀释"或"扭曲"。例如,"红色"在"红色汽车"和"红色衣服"中学到的特征可能混在一起。
- 分解后,每个属性有独立的编码器和门控模块,可以专门学习该属性最相关的视觉模式(例如"平屋顶"专注于建筑顶部形状,"工业"可能专注于大尺度或特殊结构)。
(3)
- 传统方法用全局向量匹配,无法表达"不同属性约束图像的不同空间区域"。例如,"平屋顶"主要影响建筑的上半部分,"工业"可能影响整体体量感。
- 分解框架中,每个属性生成一个空间门控图(特征级注意力),可以独立地关注自己应该关注的像素区域,然后通过乘法叠加。这相当于每个属性都在说:"我只关心这一片区域是否符合我,其他区域我不参与"。
(4)
- 直接用概率相乘(多个0.8相乘很快变成0.1甚至更小)会导致数值下溢和梯度消失,模型难以优化。
- 对数空间求和避免了这个问题,数值范围稳定,梯度传播顺畅。而且对数加和仍然完美等价于概率乘积(逻辑"与")。
理解4
该方法可以无缝集成到现有的基于Transformer的分割架构中,并在细粒度开放词汇分割基准测试中显著提高了对未见属性-类别组合的泛化能力。
本文中用了 UBC 建筑数据集和 PACO-LVIS 数据集 ,并特意划分了已见组合 (训练中出现过的属性-类别搭配)和未见组合(训练中没出现过的新搭配)。
引言
开放词汇分割(OVS)旨在根据任意文本提示 定位并分割图像区域。受益于大规模的视觉-语言预训练24,OVS超越了传统的封闭集类别词汇,使模型能够在推理时泛化到先前未见过的语义概念9,15,18,32,33,35。在现实场景中,目标不仅由物体类别描述,还常常带有多个属性,例如"带有平屋顶的工业建筑"或"带有尖屋顶的住宅建筑"。这些描述形成了组合语义,其中类别由多个属性共同指定。训练数据很少覆盖所有可能的属性-类别组合,因此模型必须在测试时泛化到未见过的组合。
组合泛化在组合式零样本学习(CZSL)中已被广泛研究。先前的工作将类别表示为属性-对象对,并执行兼容性建模1,8、基于图的传播21或特征分解23,28,以在图像级别识别未见过的组合。在广义CZSL设置中,引入了偏差校准和调和均值评估协议来平衡已见和未见组合31。这些方法将语义描述显式分解为属性和对象组件,并在标签嵌入空间中建模它们的交互。分解是在分类级别进行的:每个组合通过测量全局图像表示与组合标签向量之间的兼容性来评分。这种设计针对图像级识别,不能直接应用于密集预测,因为在密集预测中语义单元必须与空间区域独立对齐,而不是在与像素级特征脱节的标签空间中进行组合。
最近的分析进一步表明,即使是大型视觉-语言模型在细粒度组合推理中也存在系统性偏差27,39。在检测、定位和实例分割中,挑战从标签级组合转移到了区域和像素级别上语义单元的跨模态对齐。尽管现有的开放词汇检测和分割方法利用视觉-语言预训练来增强类别泛化能力34,41,但它们将整个文本提示编码为单个序列。这种整体编码将类别和属性语义纠缠在一个共享表示中。提示内部的组合结构没有被显式建模。当某些属性-类别组合在训练期间不存在时,模型没有机制在推理时分解和重组语义单元,导致在未见组合上的性能下降。将CZSL中的分解思想迁移到这一设置需要一种不同的形式:每个语义单元必须通过跨模态注意力与视觉特征独立交互,并且它们的输出必须在特征和评分层面通过显式的"与"风格约束进行组合。
为了解决这个问题,我们为细粒度开放词汇分割提出了一个分解式视觉-语言组合建模框架。每个文本提示被分解为一个类别标记和多个属性标记,并且与每个语义单元分别进行跨模态交互,避免了整体编码带来的纠缠。在特征层面,我们引入了一个特征门控交叉注意力模块,该模块生成特定属性的门控图,并通过逐元素乘法强制执行"与"约束,将每个属性视为一个必要条件过滤器。在评分层面,我们提出了一种对数空间组合聚合策略,在对数概率空间中对每个单元的匹配分数求和,产生一个数值稳定的"与"语义表达形式,并具有更好的优化行为。
我们构建了一个显式包含未见属性-类别组合的组合泛化评估协议,并在两个基准上进行了广泛的实验。
我们的主要贡献可总结如下:
- 我们提出了一个分解式视觉-语言对齐框架,该框架可以无缝集成到现有的基于Transformer的分割架构中,显著改善了细粒度开放词汇分割。
- 我们提出了特征门控交叉注意力,其中属性充当必要条件过滤器,解耦了属性特定的特征学习。
- 我们引入了一种对数空间"与"组合评分方案,显式地建模了语义单元之间的逻辑"与"关系。
- 我们为开放词汇分割引入了一个组合泛化评估协议,并进行了广泛的实验,证明了我们框架的有效性。
理解1
受益于大规模的视觉-语言预训练24,OVS超越了传统的封闭集类别词汇,使模型能够在推理时泛化到先前未见过的语义概念9,15,18,32,33,35。
开放词汇分割(OVS)
- 传统分割模型(封闭集) :只能识别训练数据中事先定义好的那一小堆类别。比如训练时只见过"人、车、树",那么测试时也只能分割这三类,遇到"狗"就直接懵逼。这就像背了单词表才能考试,超出单词表就完全不会。
- 开放词汇分割(OVS) :希望模型能理解任意文字描述,即使这个类别在训练时从未出现过。比如训练时没见过"斑马",但测试时给一句"斑马",模型也能把图中的斑马抠出来。
理解2
组合泛化在组合式零样本学习(CZSL)中已被广泛研究。先前的工作将类别表示为属性-对象对,并执行兼容性建模1,8、基于图的传播21或特征分解23,28,以在图像级别识别未见过的组合。在广义CZSL设置中,引入了偏差校准和调和均值评估协议来平衡已见和未见组合31。这些方法将语义描述显式分解为属性和对象组件,并在标签嵌入空间中建模它们的交互。分解是在分类级别进行的:每个组合通过测量全局图像表示与组合标签向量之间的兼容性来评分。这种设计针对图像级识别,不能直接应用于密集预测,因为在密集预测中语义单元必须与空间区域独立对齐,而不是在与像素级特征脱节的标签空间中进行组合。
组合式零样本学习(CZSL)的现有方法虽然也做"分解",但它们是针对图像分类设计的,无法直接用来做分割(密集预测)
组合式零样本学习要解决的问题是:识别训练时没见过的"属性-对象"组合。
- 例如训练集里有:红苹果、青苹果、红汽车。
- 测试时出现:青汽车(属性和对象都见过,但组合没出现过)。
- 模型需要能认出"青汽车"。
几种典型做法:
- 兼容性建模:学习一个打分函数,判断"图像特征"与"属性-对象组合标签"是否匹配。
- 基于图的传播:在属性-对象关系图上传递信息,推断未见组合。
- 特征分解:把图像表示分解成属性部分和对象部分。
共同点 :它们显式地把一个语义描述(比如"青汽车")拆成"青"+"汽车",然后在标签嵌入空间 里建模它们的交互。也就是说,它们是在类别标签的向量空间中做组合,而不是在图像像素空间里做。
具体流程:
- 用一个预训练模型提取整张图像的一个全局向量(比如一张图是"青汽车",就得到一个2048维的向量)。
- 把组合标签"青汽车"也映射成一个向量(可以由"青"的向量和"汽车"的向量组合而成)。
- 计算这两个向量的兼容性得分(比如点积)。
- 得分高的就认为图像属于这个组合。
关键特点 :这是图像级识别------对一整张图给出一个分类结果,不需要指出物体在图中的哪个位置。
密集预测 要求输出每个像素的类别(语义分割)或每个物体的轮廓(实例分割)。也就是说,模型必须回答:图像中哪一块区域满足"青汽车"这个组合描述?
现有 CZSL 方法的缺陷:
- 全局图像向量丢失了空间位置信息。它只知道整张图里"有青汽车",但不知道青汽车在哪里。
- 组合发生在标签空间,而不是特征空间。标签向量和像素级特征之间没有直接的、空间对齐的交互。当你有一个组合标签向量(比如"青"+"汽车"的联合嵌入),你无法将它"投影"回图像上来指出哪些像素属于"青"、哪些属于"汽车"、哪些同时属于两者。
- 没有"每个属性独立过滤空间区域"的机制 。比如,"青"这个属性可能只约束车的颜色区域,"汽车"可能约束整个轮廓。但全局兼容性打分无法表达这种空间上的条件约束。
如果直接把 CZSL 的方法搬到分割上:
- 输入"青汽车",模型会说"这张图里有青汽车",但不会告诉你青汽车在哪里。
- 而分割需要回答:这些像素是青汽车(同时满足青色和汽车形状)。
|------------|-----------------|----------------|----------|
| 任务 | 输入 | 输出 | 是否需要空间定位 |
| 图像分类(CZSL) | 整张图 | 一个类别标签(如"青汽车") | 不需要 |
| 分割(OVS) | 整张图 + 文本描述"青汽车" | 每个像素/物体的掩码 | 必须 |
相关工作
开放词汇分割
传统的语义分割模型在封闭集假设下运行,每当引入新类别时都需要重新训练3,4,20。开放词汇分割(OVS)通过以自由形式的文本提示为条件来放宽这一约束,使得在推理时能够识别任意类别。CLIP 24 和 ALIGN 12 通过对比预训练建立了联合的图像-文本嵌入空间,并已成为OVS方法所依赖的标准主干网络。
早期的OVS方法采用两阶段流程:一个类别无关的提议网络生成掩码候选,然后使用CLIP相似度对这些候选进行排序。OpenSeg 9、ZSSeg 36 和 ZegFormer 6 是这种解耦设计的代表。后续的方法加强了视觉-语言对齐与分割之间的集成。OVSeg 18 在掩码图像区域上微调CLIP,以更好地处理部分观测;FC-CLIP 38 在单个卷积过程中处理这两个任务;CAT-Seg 5 构建了图像和文本特征之间的显式代价体积,以提高定位精度。在遥感领域,MovSeg 11 通过参数高效适配,将近红外波段与RGB一起纳入,扩展了这一方向。一个相关的方向专注于子句定位,将单个短语与特定图像区域对齐。GLIP 16 将检测重新表述为短语定位,实现了句子级别以下的区域-文本对应。MDETR 13 将交叉注意力条件化在不同的文本片段上,以处理多短语查询,而XDecoder 42 在共享的文本条件查询机制下统一了指代分割与全景分割。
SAM 14 通过在超过十亿个掩码上训练,建立了强大的可提示分割能力,而SAM 2 26 通过内存增强解码将其扩展到视频。基于这些基础,SAM 3 2 进一步将几何定位与原生视觉-语言推理统一起来。有几项工作采用这一基础模型家族作为冻结的掩码生成器,将其与独立的视觉-语言模块配对用于语义标记。SOPSeg 29 在遥感小目标分割中遵循这一范式,将区域自适应放大与边缘感知解码器相结合,以保留精细的空间细节。指代图像分割解决了一个密切相关的问题,即定位自然语言描述的区域。LAVT 37 和 CRIS 30 通过跨模态注意力对齐视觉和语言特征,而GRES 19 处理可能指代多个实例或根本没有目标的更一般表达式。
组合式零样本学习
组合式零样本学习(CZSL)研究对训练期间未见过的属性-对象对的识别,其中属性和对象各自都被观察到过。Nagarajan 和 Grauman 23 将属性建模为对对象嵌入进行变换的线性算子,使得能够代数合成未见过的组合。SymNet 17 施加对称性约束,以鼓励在不同对象类别之间保持一致的属性变换。CGE 22 在学习到的图上传播语义关系,以改善对新组合的迁移。这些方法共享一个共同的设计:每个组合被表示为一个单一的全局向量,识别通过测量该向量与全局图像表示之间的兼容性来执行。分解发生在标签嵌入空间中,而不是特征空间中,因此得到的表示不携带任何空间结构。
这种设计非常适合图像分类,但不能直接迁移到密集预测任务。分割要求每个语义单元与像素级的空间区域独立对齐,而不是在与局部视觉特征脱节的标签空间中进行组合。一个全局组合向量没有机制选择性地激活与单个属性条件对应的特定空间位置。
现有的开放词汇分割方法也没有解决这一差距。它们将完整的文本提示编码为单个序列,将类别和属性语义纠缠在一个共享表示中7,40。当某些属性-类别组合在训练中缺失时,模型无法在推理时分解和重组语义单元。
方法
问题形式化
我们在组合泛化设置下研究开放词汇细粒度组合分割。与仅以类别文本为条件预测掩码的开放词汇分割不同,我们的任务要求模型定位由类别及多个属性共同指定的实例,并泛化到训练期间未观察到的新颖属性组合。
令 x∈X 表示输入图像。令 C 为物体类别集合,A1,A2,...,AK表示 K个属性组。一个组合语义描述定义为

其中 c∈C且 ak∈Ak。给定一个图像-文本对 (x,y),目标是预测所有对应于同时满足 y中所有指定语义约束的图像区域的实例掩码

。形式上,我们学习一个映射

其中 P(M)表示掩码子集的集合,Y⊆C×A1×⋯×AK是有效组合的空间。
组合泛化设置假设训练集仅包含可能组合的一个子集,记为 Yseen⊂Y。测试集完全由留出的组合 Yunseen构成,其中 Yseen∩Yunseen=∅。
重要的是,每个类别 c和每个单独的属性 ak都出现在训练数据中,但它们之间的某些组合被有意留出。在测试时,模型需要正确分割对应于这些未见组合的实例。
这种设置不同于标准的开放词汇分割,后者主要关注泛化到新的类别名称。相反,我们的问题强调对结构化语义组合的泛化,其中关键挑战在于建模像素级别上语义组件之间的交互。
显式提示分解
将概念和属性编码为单个自然语言句子通常会导致视觉-语言模型学习到高度纠缠的联合表示,这削弱了对未见组合的泛化能力。为了缓解这个问题,如图1(a)所示,我们在保留第3.1节定义的组合结构的同时,独立编码类别和每个属性。
给定一个组合语义描述 y=(c,a1,a2,...,aK),我们将类别和属性分开编码,而不是将它们连接成一个句子。类别文本 c被输入到语言编码器中,以获得一个标记嵌入序列

,其中 Nt表示类别短语的标记数量,C是嵌入维度。
属性彼此独立编码,但并不独立于类别。像"平屋顶"这样的属性短语在单独编码时是几何模糊的:同一个标记可能会激活在任何平坦表面上,而不是专门激活在建筑物的屋顶上。为了确保每个属性标记捕获预期的、以对象为条件的含义,我们在编码之前将类别文本与每个属性短语连接起来。例如,"平屋顶"被编码为"平屋顶建筑","住宅的"被编码为"住宅建筑"。这种条件化将属性表示锚定到目标对象类别,同时保持不同属性彼此解耦。每个条件化的属性短语被独立编码为

。
由于不同样本可能包含不同数量的属性,我们引入了一个属性存在掩码 m∈{0,1}K,其中 mk=1表示第 k个属性存在。该掩码确保了在后续的组合聚合中对于缺失属性的中性行为。对于每个样本,结构化的文本表示由类别标记序列 tc、属性标记序列集合

以及存在掩码 mm 组成,为后续的特征级和分数级组合操作提供了一个结构化的语义接口。
图一

图1:所提方法的整体架构。(a) 显式提示分解与特征门控交叉注意力。组合文本提示被显式解耦为独立的概念标记和属性标记。视觉查询通过标准交叉注意力与概念交互,通过乘法特征门控与属性交互,以强制执行组合约束。(b) 对数空间"与"组合评分。概念标记和属性标记与查询嵌入独立匹配。得到的分数转换为对数概率并相加,产生最终组合匹配分数。
分解式特征门控交叉注意力
如图1(a)所示,我们在查询(例如,视觉特征或对象查询)与每个语义单元之间执行分解式交叉注意力,并通过特征级乘法门控强制执行显式的"与"组合。
令查询特征为 Q∈RB×N×C,其中 B是批量大小,N是查询标记的数量,C是特征维度。类别标记为 Tc∈RB×Nt×C,第 k个属性标记为 Tak∈RB×Nt×C。
类别交互。 类别分支执行标准交叉注意力:

其中 CA 表示多头交叉注意力,LN 表示层归一化。
属性门控。 对于每个属性 ak,我们计算一个独立的门控:

其中 W是一个可学习的线性投影,σ是 sigmoid 函数,

。
令 mk∈{0,1}B 表示第3.2节中引入的属性存在掩码。对于属性 ak不存在的样本,相应的门控被中和:

这确保了当属性不存在时门控等于1。
"与"组合。 所有属性门控通过逐元素乘法聚合:

最终输出特征为

其中 ⊙表示逐元素乘法,α是一个缩放因子。每个属性门控可以解释为估计视觉特征满足相应属性约束的概率。因此,乘法聚合近似了属性上的逻辑"与",强制执行仅当特征与所有属性条件一致时才被保留。
对数空间"与"组合评分
分解式匹配评分。 如图1(b)所示,在评分过程中,类别和属性分支完全解耦。令解码器输出查询特征为 H∈RB×N×C,其中 B表示批量大小,N是查询数量,C是特征维度。
对于类别标记序列 Tc ,我们首先对有效标记进行均值池化,以获得一个类别语义向量。然后,将池化后的表示和查询特征投影到一个共享嵌入空间,接着进行缩放点积以产生类别匹配 logits:Sc∈RB×N 。
对于每个属性 ak,类似地计算相应的匹配 logits:Sak∈RB×N。
类别和属性分支在评分过程中完全解耦,每个语义单元形成一个独立的匹配分支。
对数空间"与"聚合。 为了建模同时满足类别和所有属性的语义约束,我们首先将每个分支的 logit 映射到满足相应语义单元的概率:

其中 σ(⋅)表示 sigmoid 函数。
在概率空间中,"与"语义对应于乘法聚合:

然而,直接相乘概率会导致快速的数值衰减和不稳定的梯度。因此,我们在对数空间中进行等效变换。取对数得到:

在实际操作中,我们计算

令 mk∈{0,1}表示属性存在指示符。当样本中不存在某个属性时,其概率应为中性(等于1),对应于对数空间中的0。因此

最后,为了在不同数量的活跃属性上保持一致的尺度,我们按有效组件的数量进行归一化:

得到的 ℓ表示查询满足组合语义的对数概率,并用作最终的匹配分数。
对数空间 BCE。 令 y∈{0,1}表示当前查询是否与组合语义描述匹配。
二元交叉熵可以写为

其中 ℓ是前面定义的聚合对数概率。
与在概率空间中直接相乘概率相比,对数空间公式避免了重复乘积引起的指数级梯度衰减,从而在涉及多个属性时实现了更稳定的优化。
集成到 SAM3 框架
我们的方法与模型完全无关:所提出的特征门控交叉注意力和对数空间"与"组合评分可以与任何开放词汇分割主干网络集成,只需在文本编码、交叉注意力和匹配评分中进行模块化替换即可。
在我们的实验中,我们将该方法实例化在 SAM3 上,以利用其强大的开放词汇能力,同时保持检测和分割头部不变。特征门控交叉注意力模块在多个阶段应用:(i)在图像编码期间,视觉特征根据分解的文本单元进行语义条件化;(ii)在对象查询解码期间,强制执行;(iii) 层级层面的组合约束;在掩码预测过程中,确保生成的掩码具有语义一致性。匹配分数通过对数空间下的AND运算与聚合计算得出,从而为组合语义提供可微分的监督信号。这一整合结果表明,我们的组合框架能够使任何强大的开放词典架构具备精细的语义泛化能力。
实验
组合泛化评估协议
为了评估模型在开放词汇条件下泛化到未见属性-类别组合的能力,我们设计了一个统一的组合泛化评估协议,该协议集成了数据集划分、训练标签构建以及带有综合指标的测试。
数据集与组合划分。 实验在两个数据集 上进行:UBC 建筑数据集 10 和 PACO-LVIS 数据集 25。在 UBC 数据集中,每个建筑实例用两个独立的属性组进行标注:屋顶类型和建筑用途。为了构建组合泛化设置,只有四种属性组合作为已见组合保留在训练集中:(尖屋顶,住宅)、(人字形屋顶,商业)、(平屋顶,工业)和(其他,公共)。所有剩余组合被视为未见组合并从训练中移除。为了在更通用的视觉场景中评估该方法,我们还在 PACO-LVIS 数据集上进行了进一步实验。PACO 是一个建立在 LVIS 基础上的实例级属性数据集,提供了四个属性组的属性标注:颜色、材质、图案/标记和透明度。为了避免同一类型的多个属性造成的歧义,我们选择每个属性组最多包含一个属性的实例。从所有可能的属性对中,我们随机抽取十分之一作为已见组合,而其余组合被视为未见。
训练标签构建。 为了防止模型依赖于单一提示粒度,训练标签在三个语义特异性层级上构建。首先,三分之一的训练图像仅使用类别标签进行标注(例如,"建筑")。其次,三分之一使用结合了类别的单属性提示(例如,"平屋顶建筑"或"住宅建筑")。第三,对于剩余的图像,也使用单属性提示,并且如果真实属性对属于已见集合,则额外提供一个包含两个属性的标注(例如,"平屋顶工业建筑")。这种设计使模型接触到原子语义,同时只引入少量属性组合,防止直接记忆未见组合。
测试协议。 基于每个数据集的预定义已见组合,我们构建了两个评估划分:一个仅包含训练期间观察到的组合的已见组合测试集,以及一个包含其余组合的未见组合测试集。
评估指标。 我们报告三个互补的指标来评估组合泛化。(i)组合泛化:在未见组合上的掩码平均精度(AP),直接衡量模型定位和分割未见属性组合的能力。(ii)已见-未见差距:我们报告相对性能下降

,量化从已见到未见组合时性能下降的程度。(iii)"与"效率:

,其中 G表示属性组集合(例如,UBC 中的屋顶类型和建筑用途,或 PACO 中的颜色、材质、图案和透明度)。该指标衡量独立学习的属性语义是否可以在推理时正确组合。接近1的值表示有效的组合推理,而显著较低的值表明未能正确绑定属性。
与基线的比较
我们在组合划分上微调了所有基线模型。这确保了公平比较。所有方法都使用相同的训练集和三层级标签构建策略。基线模型保留了它们原始的文本编码架构。它们将训练文本作为单个连续句子处理。我们的方法与基线的区别仅在于文本编码策略和多模态交互机制。
表1比较了我们的方法与代表性开放词汇分割方法在提出的组合泛化协议下的表现。
表一
表1:在组合泛化协议下与开放词汇分割方法的比较。 Rd表示从已见到未见组合的相对性能下降。AND-Eff 衡量模型在推理时组合独立学习到的属性语义的有效性。
|------------------|------------|------------------------------------------------------------|-------------------------------------------------------------|
| 方法 | 主干网络 | UBC | PACO |
| | | AP_unseen / AP_seen / R_d↓ / AND-Eff↑ | AP_unseen / AP_seen / R_d↓/ AND-Eff↑ |
| OVSeg 18 | CLIP ViT-L | 1.7 / 9.4 / 0.819 / 0.386 | 26.3 / 31.4 / 0.162 / 0.728 |
| FC-CLIP 38 | ConvNeXt-L | 2.4 / 10.9 / 0.780 / 0.453 | 29.7 / 34.8 / 0.147 / 0.763 |
| CAT-Seg 5 | CLIP ViT-B | 3.4 / 12.3 / 0.724 / 0.507 | 32.8 / 38.6 / 0.150 / 0.784 |
| X-Decoder 42 | Focal-L | 3.5 / 13.6 / 0.743 / 0.493 | 33.6 / 39.5 / 0.149 / 0.792 |
| SAM3 2 | SAM3 | 4.0 / 15.0 / 0.733 / 0.533 | 37.9 / 42.2 / 0.102 / 0.874 |
| Ours | SAM3 | 7.1 / 16.8 / 0.577 / 0.959 | 39.2 / 43.2 / 0.093 / 0.907 |
所有基线中一个一致的趋势是已见和未见组合之间的巨大差距。在UBC上,未见AP范围从1.7到3.5,而AND-Eff保持在0.51以下,表明这些模型很大程度上依赖于记忆的属性-类别共现,而不是学习能够泛化到新组合的语义。CAT-Seg和X-Decoder之间的比较进一步说明了这一点。尽管X-Decoder通过其基于查询的解码架构实现了更高的 APseen,但其AND-Eff下降到0.493,低于CAT-Seg的0.507,这表明更强的类别级定位能力并不能转化为更好的属性绑定。采用整体提示编码的SAM3将UBC上的 APseen提高到15.0,但未见AP仍然只有4.0,Rd=0.733,证实了仅靠表示能力无法弥补纠缠的语义编码。
在PACO上,所有方法的绝对已见-未见差距较小,Rd值远低于UBC上的值。然而,所有基线的AND-Eff仍然低于0.80,SAM3仅达到0.874,表明即使属性分布更有利,组合绑定问题仍然存在。
我们的方法在两个数据集上都优于SAM3。在UBC上,未见AP从4.0提高到7.1,AND-Eff从0.533提高到0.959,接近组合性能与边际属性能力相匹配的状态。在PACO上,绝对增益较为温和------未见AP从37.9提高到39.2,AND-Eff从0.874提高到0.907------这与观察到的基线已经在此划分上泛化得更好的事实一致。两个数据集上 APseen也有所提高,这排除了未见组合上的增益是以牺牲已见组合性能为代价的可能性。
提示编码策略的效果
表2比较了在相同SAM3主干网络下的不同文本编码策略。连接句子基线实现了4.0的未见AP。将其替换为模板集成策略(输入提示的表面形式多样化)仅带来了微弱的提升,达到4.2。这一结果表明,在词汇层面重新构造提示并不能解决根本问题:类别和属性语义在共享嵌入表示中仍然纠缠在一起。
将类别和每个属性编码为单独的文本序列,然后平均它们的匹配分数,将未见AP提高到5.3,AND-Eff提高到0.707。编码阶段的显式分解明显有益于组合泛化。然而,对语义单元进行平均分数引入了一种宽松的聚合行为。一个与类别强匹配但未能满足某个属性约束的查询仍然可以获得中等偏上的平均分数,这削弱了细粒度设置中的判别能力。
用对数空间"与"评分代替均值聚合解决了这个问题,因为它要求所有语义单元都被联合满足。未见AP进一步增加到7.1,AND-Eff达到0.959。独立编码加均值聚合与我们完整方法之间的差距隔离了"与"组合机制的贡献,表明评分策略与分解本身同样关键。
表二
表2:在UBC数据集上,相同SAM3主干网络下提示编码策略的比较。 所有变体共享相同的视觉编码器和分割头部;只有文本编码和匹配流程不同。
|------------------|--------------|-------------|---------------|---------------|
| 提示策略 | AP_seen | AP_unseen | R_d↓ | AND-Eff↑ |
| 连接句子 | 15.0 | 4.0 | 0.733 | 0.533 |
| 模板集成 (n=5) | 15.3 | 4.2 | 0.725 | 0.560 |
| 独立 + 均值分数 | 15.4 | 5.3 | 0.656 | 0.707 |
| 我们的方法 (分解 + "与") | 16.8 | 7.1 | 0.577 | 0.959 |
聚合机制消融研究
第4.3节固定了聚合策略以隔离编码的影响。这里我们固定编码为分解形式,仅改变聚合机制,将这两个视为正交的设计轴。
表3比较了在相同分解提示编码下的不同聚合机制。加法融合实现了16.1的已见AP,但未见AP仅为5.1。当属性特征相加时,一个属性上的强响应可以补偿另一个属性上的弱响应,使得难以强制执行严格的组合约束。最大分数聚合显示出类似的模式:已见AP上升到16.5,但未见AP下降到4.3。选择最高分分支实现了"或"语义,它对是否所有属性都被联合满足不敏感。
直接相乘分支概率强制执行"与"语义,并将未见AP提高到5.7。然而,已见AP下降到15.6。重复相乘sigmoid输出导致梯度幅度随属性数量迅速减小,使优化不稳定,甚至导致在已见组合上欠拟合。在概率相乘之前添加特征级门控部分缓解了这个问题。通过空间预滤波集中每个分支的分布,未见AP增加到6.2。然而,概率空间中的梯度问题仍然存在。将对数空间"与"聚合替换概率乘积解决了这个问题,因为将乘法运算转换为加法运算,保持了稳定的梯度流。最终模型实现了16.8的已见AP和7.1的未见AP,相对于特征门控加概率乘积变体的改进归因于对数空间公式。
表三
表3:在UBC数据集上组合聚合机制的比较。 所有变体使用相同的分解提示编码和SAM3主干网络。只有特征级融合和分数级聚合不同。
|----------------------|--------------|-------------|---------------|---------------|
| 聚合机制 | AP_seen | AP_unseen | R_d↓ | AND-Eff↑ |
| 加法融合 | 16.1 | 5.1 | 0.683 | 0.680 |
| 概率空间乘积 (公式(9)) | 15.6 | 5.7 | 0.635 | 0.760 |
| 最大分数 ("或"语义) | 16.5 | 4.3 | 0.739 | 0.573 |
| 特征门控 + 概率空间乘积 | 16.4 | 6.2 | 0.620 | 0.827 |
| 特征门控 + 对数空间"与" (我们的) | 16.8 | 7.1 | 0.577 | 0.959 |
与改编的CZSL方法的比较
上面的消融研究评估了我们框架内的设计选择。我们进一步与组合式零样本学习方法进行比较,以评估现有的来自图像级识别的组合策略是否能有效迁移到密集预测。表4展示了在SAM3框架内改编的方法的结果,视觉编码器和分割头部保持不变。
AttrAsOp 23 方法将属性建模为对类别查询嵌入的线性变换。这种设计将未见AP从4.0提高到4.6。其改进受到空间均匀性的限制。一个全局线性算子无法反映不同的属性约束目标对象的不同空间区域。CGE 21 方法在学习到的图上传播属性和对象之间的关系。这种关系建模将未见AP提高到5.1。图卷积依赖于丰富的节点连接性,而该数据集中属性类型和类别数量较少导致传播过程中的过度平滑。
AttrAsOp 和 CGE 都生成一个单一的全局组合向量,并通过标准点积与视觉查询进行评估。这种匹配机制缺乏空间选择性。我们的特征门控交叉注意力为每个单独的属性生成空间变化的门控图。我们的方法和 CGE 都使用了分解的属性建模,但我们的方法实现了7.1的未见AP,而CGE为5.1。这一差距直接由像素级空间门控而非全局组合向量驱动。
表四
表4:在UBC数据集上与为密集预测改编的组合式零样本学习方法的比较。 每种方法通过替换组合模块集成到SAM3框架中,同时保持视觉编码器和分割头部不变。
|----------------------|--------------|-------------|---------------|---------------|
| 方法 | AP_seen | AP_unseen | R_d↓ | AND-Eff↑ |
| SAM3 (整体提示) | 15.0 | 4.0 | 0.733 | 0.533 |
| AttrAsOp 23 (改编) | 15.2 | 4.6 | 0.697 | 0.613 |
| CGE 22 (改编) | 15.5 | 5.1 | 0.671 | 0.680 |
| 我们的方法 (分解 + "与") | 16.8 | 7.1 | 0.577 | 0.959 |
定性分析
图2可视化了两个代表性示例的特征门控交叉注意力的中间特征图。输入提示被分解为一个概念标记和两个属性标记。第一行使用概念标记"建筑"。其属性标记是"尖屋顶建筑"和"住宅建筑"。第二行也使用概念标记"建筑"。其属性标记是"平屋顶建筑"和"商业建筑"。
图2中的面板b显示了概念注意力图。这些图在各种建筑实例上广泛激活。它们忽略特定的屋顶类型或建筑用途。它们充当类别级定位器。
属性门控表现出不同的空间模式。面板c显示了第一个属性门控的激活。第一行的门控选择性地响应尖屋顶结构。它抑制了平屋顶建筑。第二行的门控突出显示平屋顶建筑。面板d显示了第二个属性门控的激活。第一行的门控突出显示住宅建筑。它减弱了商业和工业实例。第二行的门控聚焦于商业建筑。
面板e显示了最终的预测结果。模型仅保留位于所有三个激活区域交集中的实例。它抑制了匹配概念但违反任一属性条件的建筑。这种抑制通过公式(6)中的乘法门控实现。
图二
图2:两个示例的特征门控交叉注意力机制的定性可视化。第一行提示分解为概念"建筑"、属性"尖屋顶建筑"和属性"住宅建筑"。第二行提示分解为概念"建筑"、属性"平屋顶建筑"和属性"商业建筑"。面板a显示原始图像。面板b显示概念注意力图。面板c和面板d显示两个属性的CAGate激活图。面板e显示最终分割结果。三个分支产生空间上不同的激活。分割的实例与其交集重合。

结论
本文研究了细粒度开放词汇分割中组合泛化的挑战,在该任务中,模型必须识别并定位由类别和属性的新颖组合所描述的对象。我们提出了一个分解式视觉-语言对齐框架,该框架将文本提示分解为类别和属性标记,使每个语义单元能够进行独立的跨模态交互。这使得模型能够学习属性感知的表示,并重组训练期间未观察到的新颖语义概念。我们的方法包括一个特征门控交叉注意力模块,用于强制执行组合"与"约束,以及一个对数空间评分策略,用于稳定、可解释地聚合每个标记的相似度。在组合泛化协议下的大量实验表明,我们的框架显著提高了在未见属性-类别组合上的性能,同时在已见组合上保持了强劲的结果。我们希望这项工作能激发对视觉-语言模型中组合推理的进一步研究,并促进开发更鲁棒的开放世界感知系统。