计算机视觉·MaskFormer

MaskFormer

借助了DETR 的核心思想,不过将原本的目标检测任务迁移到了语义分割和全景分割领域。

方法

前向过程

  • 和DETR一样,使用骨干网络获取一个低分辨率特征图。再使用一个FPN获得分辨率与输入图像相同的特征图(缘于语义分割任务的特点)。
    + 设置N个查询向量,然后每个查询向量作为Q,特征图作为K和V,进行交叉注意力计算 ,得到对应N个段嵌入。
  • 然后和DETR一致,这N个段嵌入首先通过一个简单的MLP得到维度为N×(K+1)N\times (K+1)N×(K+1)的类别概率分布,也是引入了一个No object类别,K是目标数。
  • 不同的是,需要生成掩码,不能直接通过段嵌入+线性层得到。于是段嵌入会被映射为掩码嵌入 ,掩码嵌入与特征图进行QK矩阵乘法操作,得到N×H×WN\times H\times WN×H×W个语义掩码。
  • 需要注意的是:这些掩码不是二值的!这些掩码不是二值的!这些掩码不是二值的!,只经过了sigmoid进行简单的激活。

训练损失

  • 损失与DETR的原理保持基本一致
  • 生产的N个软掩码与M个真实掩码进行匹配。

如何定义真实掩码GT mask?

图像中可能有x个类别的注释,这x个注释可以看作是一个真实掩码。对于示例分割,还要求这x个注释互相不连通(也就是属于同一类别且连通的掩码才是真实掩码)。

  • 匹配上非no object类 的计算掩码损失:就是语义分割任务中常用的dice和focal损失
  • 所有查询对应的类别概率分布都要计算交叉熵损失

推理方式

  • 对于一般的语义分割任务:每一个查询向量的类别概率分布p_i×\times×生成的软掩码m_i,最后求和即可,得到H*W的类别概率分布,最后取最大值即可。
  • 注意:对于属于no object的类别不进行任何计算
相关推荐
小鸡吃米…11 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫11 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)11 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan11 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维12 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS12 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd12 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟13 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然13 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~13 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1