计算机视觉·ZegFormer

ZegFormer

创新点

核心思想是:对于像素进行分类的操作不符合人类的思维方式,我们擅长对于一个区域(Segment)进行分类。

因此,论文提出将 ZS3 解耦为两个独立子任务

  • 类无关的图像分组
  • 把像素分成不同区域(segments),不依赖类别信息 ,因此具有天然的泛化性。
    区域级别 zero-shot 分类(Segment-level Zero-Shot Classification)

每个 segment 做类别预测。由于这是区域级别而非像素级别,因此可以自然使用像 CLIP 这样的大规模视觉-语言模型。

这一解耦使得模型更贴近人类的分割过程(先分块再识别)。

*新定义

作者对于ZS3和GZS3的新定义方式,还是比较有意思

简单来说就是把语义分割看成两个部分

  • 先对图像进行分块 ,例如R\mathcal{R}R表示多个区域,这些区域不重叠
  • 然后找到一种标签映射关系 L\mathcal{L}L,用于将这些区域映射到标签集合

方法

块嵌入

  • 作者借助了MaskFormer 的经典思想,引入N个可以学习的块嵌入,用于编码图像中的嵌入 ,G∈RN×DG\in R^{ N \times D}G∈RN×D

  • 借助一个视觉模型如ResNet+像素级解码器得到特征图F(I)∈RD×H×WF (I) ∈ R^{D×H×W}F(I)∈RD×H×W,这个特征图大小与原始图像一致

  • 将块嵌入和特征图送入一个解码器得到学习后的块嵌入 G∈RN×DG\in R^{ N \times D}G∈RN×D,这个块嵌入可以直接用于CLIP的分类。

  • 利用该块嵌入与文本嵌入进行相似度计算,得到每一个块嵌入的分布p∈RN×Cp\in R^{N \times C}p∈RN×C
  • 与MaskFormer不同的是,由于是零样本语义分割,没有基于MLP的线性层 ,而是通过将CLIP文本编码器的嵌入与块嵌入进行相似度计算来实现学习类别的概率分布。
  • 与MaskFormer一致,引入了no object用于学习分类概率

掩码嵌入

  • 与MaskFormer一致,作者引入了一个块掩码嵌入B∈RN×DB \in R^{ N \times D}B∈RN×D,用于学习特征图中的掩码m∈RH×Wm\in R^{ H \times W}m∈RH×W。
  • 作者对原始图像和掩码图像 进行融合操作,然后送给CLIP的视觉编码器 提取图像嵌入 A∈RN×DA\in R^{N\times D}A∈RN×D
  • 这一部是不需要训练的。

  • 类似块嵌入,计算相似度 ,得到如下概率分布:p′∈RN×Cp' \in R^{N \times C}p′∈RN×C

训练

  • 使用二分图匹配得到最接近的类别
  • 对于每一个块嵌入,计算交叉熵损失。
  • 对于生成的掩码损失,与真实掩码计算DICE和FOCAL损失。

推理

  • 未完待续
    推理阶段就是结合两个概率分布,乘以得到掩码,进行求和。
相关推荐
Chef_Chen1 分钟前
论文解读:GAIA给通用AI助手泼冷水,人类92分GPT-4插件版只到30分
人工智能
Black蜡笔小新11 分钟前
自动化AI算法训练服务器DLTM训推一体工作站赋能多行业智能化升级
人工智能·算法·自动化
KaMeidebaby11 分钟前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
NineData16 分钟前
SQL 都在等锁时,ChatDBA 先帮 MySQL 找到谁在挡路
数据库·人工智能·sql·mysql·安全·数据复制·数据迁移工具
意图共鸣20 分钟前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说25 分钟前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠27 分钟前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林21234 分钟前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
没事别瞎琢磨37 分钟前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手42 分钟前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习