论文阅读——MP-Former

MP-Former: Mask-Piloted Transformer for Image Segmentation

https://arxiv.org/abs/2303.07336

mask2former问题是:相邻层得到的掩码不连续,差别很大

denoising training非常有效地稳定训练时期之间的二分匹配。去噪训练的关键思想是将带噪声的GT坐标与可学习查询并行地送到Transformer解码器中,并训练模型去噪和恢复GT边框坐标。MPFormer去噪训练的思想从DN-DETR来,改进的mask2former模型。

MPformer送入class embeddings作为查询,给每层解码层送入GT masks作为attention masks,然后让模型重建类别和masks。

mask2former提出的mask attention可以使得训练时容易收敛。作者发现使得Vit类模型容易收敛的一些常识为给可学习的查询明确的意义,减少不确定性;二是给交叉注意力局部限制,更好的找到目标。因此作者认为给交叉注意力明确的导向可以提高分割性能。和DN-DETR不同,MPformer噪声可选择,可以没有。

作者把mask2former看做一个掩码不断精细化的过程,一层的预测作为下一层的attention masks。

MPformer是每层将GTmask作为attention masks,由于每层大小不一样,所以把GT使用双线性插值到不同分辨率。

加噪声的三种方式:

点噪声表现最好,所以用的点噪声。

Label-guided training:class embeddings会对应一个classification loss,class embeddings加噪声。

两种噪声,类别和掩码噪声的比例给的是0.2。

辅助函数:

结果

相关推荐
2501_915374358 分钟前
LangChain开发智能问答(RAG)系统实战教程:从零构建知识驱动型AI助手
人工智能·langchain
AI设计小站21 分钟前
AI 工具打造专业级 PPT 配图:从文字到视觉的高效转化指南
人工智能·信息可视化·powerpoint
新知图书43 分钟前
OpenCV图像金字塔
人工智能·opencv·计算机视觉
Eric.Lee20211 小时前
数据集-目标检测系列- 狮子 数据集 lion >> DataBall
人工智能·目标检测·目标跟踪
yanmengying1 小时前
目标检测yolo算法
人工智能·yolo·目标检测
艾醒(AiXing-w)1 小时前
玩转计算机视觉——按照配置部署paddleOCR(英伟达环境与昇腾300IDUO环境)
人工智能·计算机视觉
张较瘦_1 小时前
[论文阅读] 人工智能 | Gen-n-Val:利用代理技术革新计算机视觉数据生成
论文阅读·人工智能·计算机视觉
路溪非溪1 小时前
AI应用:计算机视觉相关技术总结
人工智能·计算机视觉
老周聊大模型1 小时前
解剖Transformers库:从AutoClass设计到FlashAttention-2的工程实现
人工智能
r0ysue_1 小时前
03.利用显卡内核模块等特性为算法提速百倍
人工智能·python·机器学习