论文阅读——SEEM

arxiv:

分割模型向比较灵活的分割的趋势的转变:封闭到开放,通用到特定、one-shot到交互式。From closed-set to open-vocabulary segmentation,From generic to referring segmentation,From one-shot to interactive segmentation。

图片:

图片提取的特征:

初始化一个可学习的查询向量Qh:

通过Text_Encoder得到文本提示Pt:Text_Encoder(prompt_text)

通过VisualSampler得到

Pm初始化None,后面结合特征和之前的mask通过MaskedCrossAtt得到:

这样就得到了

相应的提示通过自我注意力与查询交互。可学习查询可以在推理时与所有提示自由交互。

也就是说,一张图片经过一个Img_Encoder得到特征Z;初始化一个可学习的查询Qh,并把它复制三份得到(即object, text and visual queries)三种查询的初始化。然后文本提示用Text_Encoder得到文本提示Pt,Pv通过VisualSampler得到。Pm初始化None,后面结合特征和之前的mask通过MaskedCrossAtt得到。

其中,VisualSampler应该是根据s,即prompt,通过点采样从图像特征中提取相应的区域,然后在这个区域均匀地插值最多512点特征向量。MaskedCrossAtt中,Mp是先前的mask, 而Z是图像特征图。通过这种方式,交叉关注仅在上一个掩码指定的区域内生效。更新后的记忆提示然后通过自我注意与其他提示交互,以传达本轮的历史信息。

得到这些查询、提示和图片特征后,他们自己可以通过注意力机制进行交互,得到,然后再预测mask M和类别 C。

在实践中,用户可以使用不同的或组合的提示类型来表达他们的意图。因此,提示的组合方法对于现实世界的应用是必不可少的。然而,在模型训练过程中,我们面临两个问题。首先,训练数据通常只涵盖单一类型的交互(例如,无、文本、视觉)。其次,尽管我们使用视觉提示来统一所有非文本提示,并将它们与文本提示对齐,但它们的嵌入空间本质上仍然不同。为了缓解这个问题,我们建议将不同类型的提示与不同的输出进行匹配。考虑到视觉提示Pv来自图像特征,而文本提示Pt来自文本编码器,我们通过将视觉提示和文本提示分别与掩码嵌入Omh或类嵌入Och匹配来选择匹配的输出索引:

之前的分割模型,比如SAM的分割是类别不可知的,即class-agnostic,SEEM以零样本的方式为各种提示组合的掩码产生语义标签.

损失函数:

SEEM的伪代码如下:

实验部分:

除了decoder部分,用的X-Decoder框架。

相关推荐
雪不下3 小时前
医用IT技术:CT(3.1)
图像处理·人工智能
咚咚王者3 小时前
人工智能之数据分析 Matplotlib:第一章 简介和安装
人工智能·数据分析·matplotlib
极客BIM工作室3 小时前
AI论文整理:Flamingo: a Visual Language Model for Few-Shot Learning
人工智能·语言模型·自然语言处理
wumingxiaoyao3 小时前
AI - AI Agent 是什么?为什么最近这么火?
人工智能·ai·chatgpt·ai agent
模型优化师3 小时前
【必收藏】AI大模型面试精选20题:从基础到高级,轻松应对大模型岗位面试
人工智能·面试·职场和发展·ai大模型·大模型学习·大模型入门·大模型教程
Salt_07283 小时前
DAY 22 常见的特征筛选算法
人工智能·python·机器学习
机器觉醒时代3 小时前
星动纪元 | 清华孵化的人形机器人先锋,以「具身大脑+本体+灵巧手」定义通用智能未来
人工智能·机器人·人形机器人·灵巧手
LplLpl113 小时前
从零实现本地轻量化 LLM 部署:Python+Ollama 快速搭建个人 AI 助手
人工智能
Hi202402173 小时前
xtreme1半自动标注平台部署及使用
人工智能·标注·xtreme1
阿杰学AI3 小时前
AI核心知识25——大语言模型之RAG(简洁且通俗易懂版)
人工智能·机器学习·语言模型·自然语言处理·aigc·agi·rag