论文阅读——MP-Former

MP-Former: Mask-Piloted Transformer for Image Segmentation

https://arxiv.org/abs/2303.07336

mask2former问题是:相邻层得到的掩码不连续,差别很大

denoising training非常有效地稳定训练时期之间的二分匹配。去噪训练的关键思想是将带噪声的GT坐标与可学习查询并行地送到Transformer解码器中,并训练模型去噪和恢复GT边框坐标。MPFormer去噪训练的思想从DN-DETR来,改进的mask2former模型。

MPformer送入class embeddings作为查询,给每层解码层送入GT masks作为attention masks,然后让模型重建类别和masks。

mask2former提出的mask attention可以使得训练时容易收敛。作者发现使得Vit类模型容易收敛的一些常识为给可学习的查询明确的意义,减少不确定性;二是给交叉注意力局部限制,更好的找到目标。因此作者认为给交叉注意力明确的导向可以提高分割性能。和DN-DETR不同,MPformer噪声可选择,可以没有。

作者把mask2former看做一个掩码不断精细化的过程,一层的预测作为下一层的attention masks。

MPformer是每层将GTmask作为attention masks,由于每层大小不一样,所以把GT使用双线性插值到不同分辨率。

加噪声的三种方式:

点噪声表现最好,所以用的点噪声。

Label-guided training:class embeddings会对应一个classification loss,class embeddings加噪声。

两种噪声,类别和掩码噪声的比例给的是0.2。

辅助函数:

结果

相关推荐
小马哥编程1 分钟前
【软测】AI助力测试用例
人工智能·测试用例
与火星的孩子对话11 分钟前
Unity3D开发AI桌面精灵/宠物系列 【三】 语音识别 ASR 技术、语音转文本多平台 - 支持科大讯飞、百度等 C# 开发
人工智能·unity·c#·游戏引擎·语音识别·宠物
事变天下17 分钟前
今是科技发布全新测序仪G-seq1M:以效率与精准引领基因测序新标杆
人工智能·科技
贤小二AI21 分钟前
贤小二c#版Yolov5 yolov8 yolov10 yolov11自动标注工具 + 免python环境 GPU一键训练包
人工智能·深度学习·yolo
KarudoLee30 分钟前
AIGC7——AIGC驱动的视听内容定制化革命:从Sora到商业化落地
人工智能·aigc
Python之栈34 分钟前
PandasAI:当数据分析遇上自然语言处理
人工智能·python·数据分析·pandas
小杨40434 分钟前
python入门系列十三(多线程)
人工智能·python·pycharm
Z_W_H_40 分钟前
ArcGIS Pro/GeoScene Pro AI 助手 2.1
人工智能·arcgis·geoscene
意.远41 分钟前
在PyTorch中使用GPU加速:从基础操作到模型部署
人工智能·pytorch·python·深度学习
HelpHelp同学1 小时前
信息混乱难查找?三步搭建高效帮助中心解决难题
大数据·人工智能·知识库管理系统