[2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合

1. ​背景与问题定义

  • 视觉语言模型(如CLIP)在单标签识别中表现出色,但在零样本多标签识别(MLR)任务中表现不佳。MLR要求模型识别图像中多个对象(例如,图像包含"猫"和"沙发"),而无需任何特定训练数据或微调。
  • 现有方法依赖于提示调优(prompt tuning)或架构修改,这限制了其零样本适用性。VLMs的分数存在图像级偏差(image-level bias,即同一图像在不同提示下分数变化)和提示级偏差(prompt-level bias,即同一提示在不同图像下分数变化),这些偏差导致MLR性能下降,尤其是在基于平均精度均值(mAP)的排名任务中。
  • 核心挑战包括:VLMs对复合提示(如"猫和沙发")表现出"OR-like"行为(即高分数可能仅因一个对象存在),而非理想的"AND-like"行为(即仅当所有对象同时存在时高分数)。

2. ​核心贡献

SPARC的核心创新包括两个主要部分:

  • 分数标准化(Score Normalization)​ :研究发现,VLM分数受图像级和提示级偏差影响,导致mAP显著下降。简单标准化(即减去平均值并除以标准差)能有效去除这些偏差。例如:
    • 图像级标准化:针对单个图像,对所有提示分数进行归一化,消除图像特定偏差。
    • 提示级标准化 :针对单个提示,对所有图像分数进行归一化,消除提示特定偏差。
      实验证明,仅标准化就能提升mAP 6-10%在COCO、VOC和NUSWIDE数据集上。标准化后,分数更可靠,便于比较和融合。

复合提示与自适应融合(Compound Prompts and Adaptive Fusion)​​:

  • 复合提示生成:基于现实对象组合(如"猫和沙发")创建提示,利用上下文关联增强检测。提示包括成对("A and B")和三元组("A, B, and C")形式,并通过大语言模型(LLM)生成自然句子。提示选择使用粗略共现概率(例如,过滤掉低概率组合),平均每类生成≤20个提示。
  • 自适应融合 :研究发现,最大复合分数(如最高排名的提示分数)常因"OR-like"行为导致假阳性(即高分数可能仅因一个对象存在)。相反,第二高分数更可靠,因它捕捉对象组合的"AND-like"行为(即仅当所有对象存在时高分数)。SPARC引入基于主成分分析(PCA)的自适应融合:
    • 提取复合分数的顺序统计量(如第k高分数)。
    • 计算最大化方差方向(即第一主成分)作为权重,融合顺序统计量和单例提示分数。
    • 最终分数通过合并原始单例分数和融合分数获得。

3. ​方法细节

SPARC算法(Algorithm 1)分为三步:

  • 输入:图像集和类名。
  • 步骤
    1. 生成复合提示:使用类名创建复合提示,基于共现概率过滤(例如,阈值τ₂=0.05用于成对提示)。
    2. 获取分数并标准化:查询VLM获取单例提示分数和复合提示分数,然后应用图像级和提示级标准化(公式1-2)。
    3. 自适应融合:对每类计算顺序统计量,使用PCA融合(公式3-5),例如,最终分数ζᵢᵗ = sᵢᵗ + 融合分数。
  • 噪声模型:VLMs分数可建模为sᵢⱼᵗ = θ₁ᵗ · f(yᵢᵗ, yⱼᵗ) + θ₀ᵗ + ε,其中f函数显示"OR-like"行为(高分数因单对象)和"AND-like"行为(高分数因所有对象)。标准化有效处理θ₀ᵗ和θ₁ᵗ偏差,而融合减轻f函数的歧义。

4. ​实验验证

实验在三个数据集(COCO、VOC、NUSWIDE)和九个CLIP骨干(如ViT-L/14、RN50)上进行:

  • 基准比较:SPARC相比Vanilla ZSCLIP(单例提示),平均mAP提升12.6%(COCO)、8.8%(VOC)、7.9%(NUSWIDE)。改进一致,所有骨干提升6-15%。
  • 互补性:SPARC与现有方法(如TagCLIP、TaI-DPT)集成,进一步提升mAP(平均1.6-1.7%)。例如,在TagCLIP上集成后mAP从81.3%升至82.9%。
  • 消融实验
    • 标准化模块:单独标准化提升单例提示mAP 7.7%;与复合提示结合提升8.6%。
    • 融合策略:自适应融合优于固定策略(如k-th最高分数或平均值)。第二高分数比最高分数更可靠,因最高分数易受假阳性影响。

5. ​结论与意义

  • SPARC是一种完全零样本方法,无需训练数据或VLM内部访问,通过系统性提示设计和分数解释提升MLR性能。关键发现包括:标准化有效去除偏差;复合提示的第二高分数优于最大分数;自适应融合优化排名。
  • 该方法揭示了VLM评分行为的新见解(如"OR/AND"歧义),并为零样本MLR提供可扩展框架。SPARC互补现有方法,代码公开于GitHub。
  • 总体意义:SPARC展示了通过分数分析而非架构修改实现鲁棒MLR的潜力,适用于机器人、医学影像等零样本场景。

总结而言,SPARC通过标准化和自适应融合解决了VLMs在零样本MLR中的核心偏差问题,显著提升mAP,同时保持模型无关和数据集独立特性。

论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Miller_SPARC_Score_Prompting_and_Adaptive_Fusion_for_Zero-Shot_Multi-Label_Recognition_CVPR_2025_paper.pdf

相关推荐
HavenlonLabs32 分钟前
重塑链上未来的隐形基石:长期主义下的生态演进
大数据·人工智能·安全·区块链
Jutick37 分钟前
远程 MCP 已配置,为什么你的 AI 开发工具仍查不到 A 股行情?
人工智能·mcp
phltxy38 分钟前
Spring AI Agents 智能体模式实战
java·人工智能·spring
li-xun41 分钟前
2026年6月14日博客精选
人工智能·ai
码云骑士1 小时前
13-列表append的底层真相(上)-listobject源码中的预分配策略
开发语言·python
DogDaoDao1 小时前
【GitHub】 Headroom 深度解析:AI Agent 上下文压缩层的完整技术拆解
人工智能·深度学习·程序员·github·ai agent·智能体·agent skill
挖坑的张师傅1 小时前
方便 Mac 本机运行 e2b 的沙箱方案 e2b-local
人工智能·后端
生成论实验室1 小时前
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路
人工智能·语言模型·机器人·自动驾驶·安全架构
浦信仿真大讲堂1 小时前
达索系统SIMULIA Abaqus 2026接触和约束的增强新功能介绍
人工智能·python·算法·仿真软件·达索软件
黄狗操作员1 小时前
NCCL 2.29 官方文档参数解读
语言模型·云计算·运维开发·gpu算力