MaskCLIP+

MaskCLIP

CLIP 是否仅能做图像级的零样本分类?还是其实已经隐含了局部/像素级的语义信息,可以直接用于语义分割?

结论是:

CLIP 内部确实已经隐含了丰富的局部语义,可直接输出密集预测,甚至能成为一种强大的开集伪监督方式。

千万不要 fine-tune CLIP,否则会破坏视觉---语言对齐

作者实验了两种天真的方案:

  • 用 CLIP 的 backbone 初始化 DeepLab 再 fine-tune
  • 使用映射器 M(text_embedding) → classifier weights
    结果都失败,原因是:
  • fine-tune 会破坏 CLIP 原有的语义空间
  • mapper 在 seen classes 上训练,无法泛化到 unseen classes
    因此 必须保持 CLIP 冻结,否则开集能力崩溃
    → 这形成 MaskCLIP 的设计原则:"不破坏 CLIP 的语义空间"

密集视觉特征

  • 对于VIT,密集视觉特征就是patch嵌入
  • 对于ResNet的骨干,其密集视觉特征是注意力池化层中的值嵌入。
    作者发现ViT上的表现比ResNet强,因为其分辨率比ResNet高,VIT:32x32,ResNet:7x7
    通过上采样 还原到原始图像的分辨率。

文本嵌入作为分类器权重

分类器权重就是将视觉特征HxWxC映射到HxWxK的矩阵,其中K是类别数。

作者直接将CLIP文本嵌入作为该权重。

去噪和平滑处理

  • 作者将注意力池化层丢弃的k重新利用过来,用于平滑输出的分割掩膜
  • 把在所有像素(位置)的预测概率都小于0.5的类别直接移除,用于去噪。


MaskCLIP+

  • MaskCLIP已经可以实现开放词汇分割了,但是效果不一定强,主要是受限于特征图分辨率太低。
  • 作者采用DeepLab作为主要分割网络,生成高质量高分辨率的特征图,利用MaskCLIP生成的分割掩码进行监督。
  • 在前1/10轮,作者采用MaskCLIP进行监督,但是后面作者采用自训练的形式,对于没有注释的转导设置,作者直接利用主要分割网络自己产生的掩码用于自训练。
相关推荐
聆风吟º42 分钟前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys1 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56781 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子1 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能2 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144872 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile2 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5772 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert
盟接之桥2 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
kfyty7252 小时前
集成 spring-ai 2.x 实践中遇到的一些问题及解决方案
java·人工智能·spring-ai