【NIPS24】【Open-Ended Object Detection】VL-SAM


论文https://arxiv.org/abs/2410.05963

代码:暂未提供


摘要

本文介绍了一种名为VL-SAM的训练免费框架,用于解决开放性物体检测和分割任务。该框架结合了通用对象识别模型 (MLLM)和通用对象定位模型(SAM),并通过使用注意力映射作为提示连接这两个通用模型。实验结果表明,VL-SAM在LVIS数据集上的表现优于之前的方法,并且可以在真实世界应用中提供额外的实例分割掩模。此外,VL-SAM具有良好的模型泛化能力,可以集成各种VLM和SAM。

论文速读

方法描述

本文提出的VL-SAM框架是一种基于视觉语言模型(VLM)和场景分割模型(SAM)的对象识别与定位方法。首先使用VLM来描述图像并列出所有可能存在的对象,然后针对每个对象使用注意力生成模块结合头聚合和注意力流来获取高质量的关注图,并将其转换为点提示发送给SAM以获得位置预测。该方法的关键在于如何生成高质量的关注图,因此引入了注意力流来聚合和传播注意力图通过VLM中的所有transformer头部和层。在注意力流中,先将查询和键乘以因果掩码和SoftMax归一化,得到相似度矩阵S,再通过选择每列的最大相似权重来进行注意力头权重计算。最后,使用注意力滚动方法来进一步聚合来自所有层的注意力,并选择最后一层的注意力图作为对象关注图。

方法改进

为了解决VLM自动回归生成方法导致的注意力塌陷问题,提出了一个简单的正则化项,可以有效地缓解这个问题。此外,在使用SAM进行物体分割时,由于可能存在不稳定的假阳性区域,因此需要对其进行过滤。为此,首先使用阈值滤除弱激活区域,并找到最大连通区域作为正区域,其余区域作为负区域。然后,从正区域中随机采样一个正点,从负区域中随机采样一个负点,作为SAM的点提示对。对于迭代策略,采用了两次迭代来进一步细化分割结果,分别采用了PerSAM中的级联后处理和利用先前生成的分割掩模来遮挡注意力图,并不断迭代生成新的正负对,然后将它们送入SAM解码器,最终通过NMS进行聚合。

另外,为了克服VLM低分辨率输入图像可能导致无法识别小物体的问题,采用了SPHINX中的多尺度融合方法,将图像分成四个子图像,并独立地将每个子图像发送到VL-SAM中,最后将四个子图像的输出和整个图像的输出进行融合。此外,还使用了VLM生成的十个问题提示来描述输入图像,以获得更全面的图像描述,并将其用于VL-SAM中的对象识别和定位。

解决的问题

本文提出的VL-SAM框架主要解决了两个问题:对象识别和定位。对于对象识别,通过使用VLM来描述图像并列出所有可能存在的对象,可以准确地识别出图像中存在的对象。而对于对象定位,则通过使用注意力生成模块结合头聚合和注意力流来获取高质量的关注图,并将其转换为点提示发送给SAM以获得位置预测,从而实现了精确的对象定位。同时,本文也提出了一些改进措施,如使用正则化项缓解注意力塌陷问题、使用阈值过滤假阳性区域以及采用多尺度融合和问题提示等方法来提高对象识别和定位的准确性。

论文实验

本文主要介绍了VL-SAM(Vision-Language Segmentation Model)这一训练免费的零样本检测框架,并通过多个实验对其性能进行了评估和比较。

首先,在LVIS数据集上,作者将VL-SAM与GenerateU等其他方法进行了比较。他们使用了固定AP来衡量罕见物体的检测性能,并发现VL-SAM在该任务中表现优于GenerateU,具有更好的检测和分割性能。此外,VL-SAM还能够在不需要预先定义对象类别的情况下生成这些类别,因此更加实用。

其次,在CODA数据集上,作者将VL-SAM与其他开放域检测器进行了比较。结果表明,当前基于对象提议的开放域检测器难以处理角落情况,而依靠CLIP作为对象类别预测器的方法则表现更好。然而,LLaVA-Grounding等最近的开放域检测器需要联合训练两个模型,增加了训练成本。相比之下,VL-SAM是一种训练免费的框架,可以在没有额外训练成本的情况下显著提高性能。

最后,作者还进行了消融研究,分析了VL-SAM各个组件的效果。结果显示,每个组件都对最终性能有重要影响。例如,引入注意力生成模块可以显著提高基线性能,而迭代精炼模块则可以进一步提高检测性能。同时,多尺度图像输入和问题提示的组合也能够带来显著的性能提升。

总的来说,VL-SAM在各种实验中都表现出色,证明了其作为一种零样本检测框架的有效性和实用性。

相关推荐
麦麦大数据7 分钟前
Python棉花病虫害图谱系统CNN识别+AI问答知识neo4j vue+flask深度学习神经网络可视化
人工智能·python·深度学习
段传涛9 分钟前
PAL(Program-Aided Language Model)
人工智能·语言模型·自然语言处理
声网11 分钟前
实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾
人工智能·实时互动
魔珐科技12 分钟前
以3D数字人AI产品赋能教育培训人才发展,魔珐科技亮相AI+教育创新与人才发展大会
大数据·人工智能
weixin_4432906912 分钟前
【阅读记录-章节3】Build a Large Language Model (From Scratch)
人工智能·语言模型·自然语言处理
算家云18 分钟前
快速识别模型:simple_ocr,部署教程
开发语言·人工智能·python·ocr·数字识别·检测模型·英文符号识别
youcans_1 小时前
【微软:多模态基础模型】(5)多模态大模型:通过LLM训练
人工智能·计算机视觉·大模型·大语言模型·多模态
飞凌嵌入式1 小时前
飞凌嵌入式T113-i开发板RISC-V核的实时应用方案
人工智能·嵌入式硬件·嵌入式·risc-v·飞凌嵌入式
sinovoip1 小时前
Banana Pi BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片设计
人工智能·科技·物联网·开源·risc-v