Segment Anything

参考:【图像分割】Segment Anything(Meta AI)论文解读-CSDN博客

背景

  • 提示分割任务:在给定任何分割提示下返回一个有效的分割掩码
  • 目标:开发一个可提示的图像分割的基础模型,在一个广泛的数据集上预训练,解决新数据分布上的一系列下游分割问题
  • 输入:提示+图片
  • 输出:mask

模型

  • prompt可以是一组前景/背景点、一个粗糙的框或掩码、自由形式的文本(上图中的Task)
  • 三个约束条件:一个强大的图像编码器计算图像嵌入,一个提示编码器嵌入提示,然后将两个信息源组合在一个轻量级掩码解码器中来预测分割掩码。(上图中的Model)
  • 数据加强:分三个阶段:在第一阶段,SAM(Segment everything model)协助注释器对掩码进行注释,类似于经典的交互式分割设置【train】。在第二阶段,SAM可以通过提示可能的对象位置来为对象子集自动生成掩码,注释器专注于对其余对象的注释,帮助增加掩码的多样性【annotate】。在最后一个阶段,我们用一个规则的前景点网格提示SAM,平均每张图像产生100个高质量的掩模。(上图中的Data)
  • 图像编码器:预训练的视觉变换器 (ViT)
  • 提示编码器
    • 两组提示:稀疏的(点、方框、文本)和密集的(mask)
      • 点和方框:位置编码与每种提示类型的学习嵌入相加
      • 文本:用 CLIP的现成文本编码器来表示自由格式文本
      • mask:使用卷积进行嵌入,并与图像嵌入进行元素求和
  • 掩码解码器
    • ​​​​​​​ 有效地将图像嵌入、提示嵌入和输出token映射到掩码。该设计的灵感来自于DETR,采用了对(带有动态掩模预测头的)Transformer decoder模块的修改。
相关推荐
玄同7651 分钟前
Python 后端三剑客:FastAPI/Flask/Django 对比与 LLM 开发选型指南
人工智能·python·机器学习·自然语言处理·django·flask·fastapi
张登杰踩2 分钟前
MCR ALS 多元曲线分辨算法详解
算法
慢半拍iii3 分钟前
ops-nn算子库深度解析:昇腾神经网络计算的基础
人工智能·深度学习·神经网络·ai·cann
程序员猫哥_4 分钟前
HTML 生成网页工具推荐:从手写代码到 AI 自动生成网页的进化路径
前端·人工智能·html
禁默5 分钟前
Ops-Transformer:CANN生态赋能AIGC的Transformer专用加速库
深度学习·aigc·transformer·cann
哈__5 分钟前
CANN优化Diffusion扩散模型推理:去噪过程与采样策略加速
人工智能
永远都不秃头的程序员(互关)7 分钟前
CANN DVPP赋能AIGC:硬件加速视觉处理,打造极致生成式视觉工作流
人工智能·aigc
JustDI-CM7 分钟前
AI学习笔记-提示词工程
人工智能·笔记·学习
悟纤8 分钟前
学习与专注音乐流派 (Study & Focus Music):AI 音乐创作终极指南 | Suno高级篇 | 第33篇
大数据·人工智能·深度学习·学习·suno·suno api
饭饭大王6669 分钟前
迈向智能体时代——构建基于 `ops-transformer` 的可持续 AI 系统
人工智能·深度学习·transformer