感知万物:图像与视频中识别、解释、描述与分割万物

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

https://arxiv.org/pdf/2506.05302v1

Figure 1: Perceive Anything Model (PAM): PAM accepts various visual prompts (such as clicks, boxes, and masks) to produce region-specific information for images and videos, including masks, category, label definition, contextual function, and detailed captions. The model also handles demanding region-level streaming video captioning.

Abstract

We present ​​Perceive Anything Model (PAM)​ ​, a conceptually straightforward and efficient framework for comprehensive region-level visual understanding in images and videos. Our approach extends the powerful segmentation model ​​SAM 2​ ​ by integrating ​​Large Language Models (LLMs)​ ​, enabling simultaneous object segmentation with the generation of diverse, region-specific semantic outputs, including categories, label definition, functional explanations, and detailed captions. A key component, ​​Semantic Perceiver​ ​, is introduced to efficiently transform SAM 2's rich visual features, which inherently carry general vision, localization, and semantic priors into multi-modal tokens for LLM comprehension. To support robust multi-granularity understanding, we also develop a dedicated data refinement and augmentation pipeline, yielding a ​​high-quality dataset of 1.5M image and 0.6M video region-semantic annotations​ ​, including novel ​​region-level streaming video caption data​ ​. ​​PAM is designed for lightweightness and efficiency​ ​, while also demonstrates strong performance across a diverse range of region understanding tasks. It runs ​​1.2−2.4× faster​ ​ and consumes ​​less GPU memory​ ​ than prior approaches, offering a ​​practical solution for real-world applications​ ​. We believe that our ​​effective approach​ ​ will serve as a ​​strong baseline​​ for future research in region-level visual understanding.

本文提出了​​感知万物模型(Perceive Anything Model, PAM)​ ​,这是一个概念上简洁高效、用于图像和视频​​全面区域级视觉理解​ ​的框架。本文的方法通过集成​​大语言模型(Large Language Models, LLMs)​ ​ 扩展了强大的分割模型​​SAM 2​ ​,使其能够​​同时进行目标分割​ ​并生成​​多样化、区域特定的语义输出​ ​,包括类别、标签定义、功能解释和详细描述。本文引入了一个关键组件------​​语义感知器(Semantic Perceiver)​ ​,它能高效地将 SAM 2 丰富的视觉特征(这些特征本身蕴含通用的视觉、定位和语义先验知识)转化为​​多模态 token​ ​,以供 LLM 理解。为了支持​​鲁棒的多粒度理解​ ​,本文还开发了专用的​​数据精炼与增强流程​ ​,构建了一个包含​​150万张图像和60万段视频的区域-语义标注​ ​的高质量数据集,其中包括新颖的​​区域级流式视频描述数据​ ​。​​PAM 设计追求轻量化和高效率​ ​,同时在​​广泛的区域理解任务​ ​上展现出强大的性能。与现有方法相比,其运行速度​​快 1.2−2.4 倍​ ​,​​消耗的 GPU 内存更少​ ​,为​​实际应用提供了实用的解决方案​ ​。本文相信,这种​​高效的方法​ ​将为未来区域级视觉理解的研究奠定​​坚实的基础(strong baseline)​​。

Code, model and data are available at: Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

Introduction

视觉社区见证了视觉基础模型的飞速发展,例如 ​​SAM [34]​ ​ 和 ​​SAM 2 [52]​ ​,它们极大地提升了图像和视频中​​交互式目标分割​ ​的性能。这些模型能够基于各种​​视觉提示(visual prompts)​ ​ 以惊人的精度定位任意目标。然而,它们通常​​缺乏对分割区域的深层语义理解​​,阐明这些区域的含义或其上下文功能仍然是一个具有挑战性的问题。

最近的研究试图通过视觉提示赋予​​视觉-语言模型(Vision--Language Models, VLMs)区域级理解能力​ ​。如图 2 所示,当前的方法可分为三种范式:(1) ​​文本编码(textual encoding)[63, 78, 86, 44]​ ​:将 2D 边界框坐标编码为提示词中的自然语言字符串,因此​​不提供显式的区域先验​ ​;(2) ​​视觉提示编码(visual prompt encoding, VPE)[41, 51]​ ​:引入​​额外模块​ ​来嵌入区域图像特征和位置特征;(3) ​​基于感兴趣区域/分割的编码(RoI/segmentation-based encoding)[38, 77, 83, 80, 29]​ ​:利用​​外部掩码生成器​ ​来拼接图像嵌入和掩码嵌入。尽管这些方法展现出潜力,但它们通常存在一些局限性:(i) 它们通常​​仅生成有限的语义输出​ ​------通常只是类别标签或简短描述 [26, 88, 69, 67];(ii) 它们的​​设计是模态特定的​ ​,专注于单一视觉模态(图像或视频),​​泛化性有限​ ​ [63, 78, 77, 80, 81];(iii) 它们​​依赖外部分割模型​ ​来提供掩码,这种​​串行设计增加了计算开销​ ​,并使整体性能​​对掩码质量敏感​​ [80, 81, 38]。

Figure 2: Previous Paradigms vs. Our Paradigm (PAM). (a & b) Textual/VPE methods provide region understanding using positional embeddings but typically lack simultaneous object masks. (c) RoI/Segmentation-based methods use external segmenter for object masks, subsequently fusing image and mask embeddings. (d) In contrast to previous paradigms, our method directly treats the Seg. model as vision encoder. It effectively leverages the rich visual embeddings from the robust segmentation model and features a parallel design for its mask and semantic decoders.

为了应对这些挑战,本文提出了​​感知万物模型(Perceive Anything Model, PAM)​ ​,这是一个​​端到端的区域级视觉-语言模型​ ​,旨在实现​​快速且全面的细粒度视觉理解​ ​,适用于图像和视频,其能力包括预测类别、解释识别出的区域元素的定义和上下文功能,以及生成特定区域的详细描述。本文的方法并非从头开始重新设计模型架构,而是高效地​​扩展 SAM 2 框架​ ​,结合​​大语言模型(Large Language Models, LLMs)​ ​ 来支持语义理解。具体来说,本文引入了一个​​语义感知器(Semantic Perceiver)​ ​ 作为关键桥梁,它​​有效利用 SAM 2 骨干网络丰富的中间视觉特征​ ​,将​​通用的视觉、定位和语义先验知识​ ​整合到视觉 token 中。这些 token 随后由 ​​LLM 处理​ ​,以生成​​多样化的语义输出​ ​。此外,​​PAM 采用了并行设计​ ​用于其​​掩码解码器​ ​和​​语义解码器​ ​,能够​​同时生成区域掩码和语义内容​ ​,从而​​提高计算效率​​。

为确保 PAM 在理解区域级多维语义粒度方面的鲁棒性,高质量的 训练数据至关重要。虽然多个现有数据集 [6, 32, 36, 43, 29, 68] 提供了区域语义标注,但作者注意到它们通常 过于粗糙**,限制了其用于细粒度理解任务的效用。因此,为构建高质量的训练数据,本文开发了一个先进的** 数据精炼与增强流程**。该流程利用领先的** 视觉语言模型(VLMs,例如 GPT-4o [27])和人类专家验证来精炼和增强现有的区域级标注数据集。

  • 对于图像 :为每个特定区域生成多个不同语义粒度 的标注:一个细粒度的类别标签 、一个阐明该区域在场景中角色或功能的上下文感知定义 ,以及详细的描述

  • 对于视频 :将参考视频检测与分割数据集 [64, 58, 18, 71, 17] 中原始的粗粒度标注精炼为详细的、具有时序感知的区域级描述此外,本文首创开发了基于事件的区域级流式视频描述数据据作者所知,这是首个构建此类数据集的工作,使模型能够支持流式视频区域描述。

  • 值得注意的是,还为每个数据标注生成了双语(英文和中文)版本 ,以赋予模型多语言响应能力

此过程最终产生了一个高质量数据集,包含 150 万(1.5M)个图像-区域-语义三元组和 60 万(0.6M)个视频-区域-语义三元组。

本文的实验结果表明,PAM 在多种图像和视频区域理解任务中均表现出 鲁棒的性能**,同时与先前模型相比,** 运行速度快 1.2−2.4 倍 GPU 内存占用更低**。作者相信,提出的模型、数据集和见解将** 显著推动该领域的研究**,并为视觉语言社区带来广泛价值。**


Perceive Anything Model (PAM) ​

给定视觉提示(如点、框或掩码)以指定感兴趣区域,​​感知万物模型(PAM)​ ​ 能够​​同时​ ​完成以下任务:

(1) ​​分割(Segment)​ ​:在图像中或整个视频中为指定区域生成​​精确的分割掩码​ ​。

(2) ​​识别(Recognize)​ ​:​​识别​ ​指定区域或对象的​​类别​ ​。

(3) ​​解释(Explain)​ ​:​​提供清晰解释​ ​,说明该区域或对象在其给定​​上下文中的定义、属性和功能​ ​。

(4) ​​描述(Caption)​ ​:为图像、视频和视频流中的区域生成​​简洁或详细的描述​​。

​模型架构​

如图 3 所示,提出的 ​​PAM​ ​ 可分为两部分。第一部分是 ​​SAM 2 框架​ ​,它包含一个​​图像编码器(image encoder)​ ​、一个​​提示编码器(prompt encoder)​ ​、​​记忆模块(memory modules)​ ​ 和一个​​掩码解码器(mask decoder)​ ​。该框架提供了​​强大的时空视觉特征提取和分割能力​ ​。第二部分是一个​​语义解码器(semantic decoder)​ ​,它基于一个​​大语言模型(Large Language Model, LLM)​ ​。​​关键​ ​在于,本文提出的​​语义感知器(Semantic Perceiver)​ ​ 充当了​​桥梁​ ​,它​​有效利用 SAM 2 骨干网络的中间视觉特征​ ​,并生成​​视觉 token(visual tokens)​ ​。这些 token 随后由 ​​LLM 处理​ ​,以生成​​多样化的语义输出​ ​。在解码方面,​​PAM 采用了并行设计​ ​用于其​​掩码解码器​ ​和​​语义解码器​ ​,从而能够​​同时分割对象​ ​并​​生成其多样化的语义输出​​。各组件的设计和训练过程详述如下。

Figure 3: Overall Architecture of PAM.

语义感知器(Semantic Perceiver)​

如图 3(b) 和图 4 所示,​​语义感知器的架构​ ​镜像了 ​​SAM 2 特征融合模块(SAM 2 Feature Fusing module, S2-FFM)​ ​,采用了一个​​轻量级的两层 Transformer​ ​,包含​​自注意力(self-attention)​ ​、​​交叉注意力(cross-attention)​ ​ 和一个​​逐点 MLP(point-wise MLP)​​。具体来说,它接收两个主要输入:

  1. 来自 ​S2-FFM 的增强掩码 token(enhanced mask tokens)​ :这些 token ​融合了 IoU 和提示 token 的信息​ ,并作为​精确生成掩码的唯一标识符​
  2. ​S2-FFM 之后更新的图像嵌入(updated image embeddings)​ :这些嵌入​捕捉了通用的视觉上下文​ 以及​通过与掩码 token 交互而丰富的隐式特征​
    接下来,遵循 [26, 28] 的方法,本文将 ​Ns 个可学习的语义 token(learnable semantic tokens)​​增强的掩码 token​ 进行​拼接(concatenate)​ 。最后,通过​语义感知器内部进一步的注意力机制​ ,本文可以获取​富含通用视觉信息和对象级定位信息的视觉 token​ 。给定 N 帧输入(对于单张图像 N=1),​语义感知器输出两组 256 维向量​​642 × N 个视觉 token​​Ns × N 个语义 token​​Ns 默认为 16​)。

​投影器(Projector)​

位于 ​​LLM 之前​ ​的​​投影器​ ​包含两层:一个​​像素重排操作(pixel shuffle operation)​ ​ 和一个 ​​MLP 投影器(MLP projector)​​。

  • 对于​图像输入​ ,本文对相邻的 ​2×2 特征块(feature patches)​ 应用​像素重排操作​ ,以​下采样视觉 token 的数量​
  • 对于​视频输入​​被提示的帧(prompted frame)​ 的处理方式与单张图像类似,而视频片段中的​剩余帧(remaining frames)​ 则经过​更激进的 4×4 像素重排操作​ ,以​显著减少视觉 token​ ,并​进一步提高语义解码器的处理效率​
    随后,本文使用​两个独立的 MLP [45]​​分别投影视觉 token 和语义 token​

Figure 4: Detailed illustration of our PAM workflow. Semantic Perceiver first receives enhanced image embeddings and mask tokens from the S2-FFM and outputs enriched visual tokens and semantic tokens. These are subsequently fed into the semantic decoder for decoding.

语义解码器(Semantic Decoder)​

本文采用预训练的 ​​Qwen2.5 LLM [72]​ ​ 作为本文的语义解码器,利用其强大的语言处理能力。该解码器负责​​解释处理后的视觉 token 和语义 token​ ​,并结合​​任务指令​ ​,以生成所需的​​语义输出​​。

​流式视频编码与解码(Streaming Video Encode and Decode)​

基于 SAM 2 中通过​​记忆模块(memory modules)逐帧渐进引入历史信息​ ​的基础,本文提出了一种​​简单直接的策略​ ​来实现​​区域级流式视频描述(region-level streaming video captioning)​ ​,而无需添加复杂组件。具体来说,对每个视频片段的​​最后一帧​ ​应用一个​​额外的 2×2 像素重排操作(pixel shuffle operation)​ ​。这导致了​​更高密度的视觉 token​ ​,从而​​改善了历史视觉信息的保留​ ​。这些 token 随后作为​​下一个视频片段的初始帧​ ​,并与该片段的​​剩余帧​ ​一起由 ​​LLM 处理​ ​。这种方法确保每个片段得到​​一致的处理​ ​,并有效地将​​关键的历史信息​ ​从上一个片段传递到下一个视频片段。此外,本文将​​先前的文本描述​ ​纳入​​提示词(prompt)​ ​ 中,以​​进一步增强上下文历史信息​ ​,从而​​提升模型对持续事件的理解和描述准确性​ ​。在实践中,本文的框架允许用户​​灵活指定解码时间戳​ ​。当达到指定时间戳时,模型会描述​​当前时间戳与上一个时间戳之间时间段内​​的指定区域。

​训练策略(Training Strategies)​

本文采用​​三阶段课程学习(three-stage curriculum learning)​ ​ 方法来构建训练过程,​​逐步增强 PAM 的区域级视觉理解能力​ ​,​​从图像扩展到视频​ ​。在​​所有训练阶段​ ​,​​SAM 2 的参数均被冻结(frozen)​​。每个训练阶段的超参数总结在附录 A 中。

  • ​阶段 1:图像预训练与对齐(Image Pretraining and Alignment)​ ​。初始训练阶段侧重于在​​视觉 token​ ​、​​语义 token​ ​ 和​​语言模型的嵌入空间(embedding space)​ ​ 之间建立​​鲁棒的对齐(robust alignment)​ ​。主要目标是使模型能够​​有效理解区域级图像内容​ ​。为此,本文利用一个包含​​区域级图像分类和描述(region-level image classification and captioning)​ ​ 的大规模数据集。在此阶段,​​仅训练语义感知器(semantic perceiver)和投影器(projector)​​。

  • ​阶段 1.5:视频增强预训练与对齐(Video-Enhanced Pretraining and Alignment)​ ​。在此阶段,本文通过加入​​区域级视频描述(region-level video captions)​ ​ 来扩展基于图像的初始训练。这种加入使模型能够通过整合​​时空视觉信息(spatio-temporal visual information)​ ​ 来​​理解动态场景(comprehend dynamic scenes)​ ​。​​可训练模块与阶段 1 相同​​。

  • ​阶段 2:多模态微调(Multimodal Fine-Tuning)​ ​。最后阶段采用​​监督微调(Supervised Fine-Tuning, SFT)​ ​,使模型能够​​执行多样化任务(perform diverse tasks)​ ​ 并​​生成期望的响应(generate desired responses)​ ​。此阶段利用一个​​高质量数据集​ ​,该数据集已通过本文的流程(第 4 节)进行了​​精炼和增强(refined and augmented)​ ​。此阶段的训练​​联合涉及语义感知器、投影器和语义解码器(semantic decoder)​​。


Data

为了增强 PAM 的​​全面视觉感知能力(comprehensive visual perception capabilities)​ ​,本文开发了一个​​鲁棒的数据精炼与增强流程(robust data refinement and augmentation pipeline)​ ​,以​​策划(curate)​ ​ 一个​​高质量的训练数据集​ ​。该数据集具有三个关键特征:

(1) ​​广泛的语义粒度(Broad-ranging Semantic Granularities)​ ​:它提供​​多样化的视觉语义标注(diverse visual semantic annotations)​ ​,涵盖从​​粗粒度(coarse-level)​ ​(类别、定义、上下文功能)到​​细粒度(fine-grained)​ ​(详细描述)的范围(第 4.1 节)。

(2) ​​区域流式描述标注(Regional Streaming Caption Annotations)​ ​:这是​​首个专门为流式视频区域描述(streaming video region captioning)策划标注​ ​的数据集(第 4.2 节)。

(3) ​​双语标注(Bilingual Annotations)​ ​,支持​​英语和中文​ ​(附录 B.2)。

该流程详述如下,更多信息可在附录 B 中找到。

Image Dataset

区域识别、解释与描述(Regional Recognition, Explanation, and Caption)​

对于​​区域识别​ ​,本文利用了多个​​实例检测与分割数据集​ ​[55, 35, 40, 23, 50, 66],以及​​场景文本识别数据集​ ​[56, 31, 30, 19, 24, 14, 76, 57, 4]。在此上下文中,​​边界框(bounding box)或掩码(mask)​ ​ 作为​​视觉提示输入​ ​,而​​标签(label)​ ​ 被视为​​输出​​。

为了实现​​超越简单分类的深层、细粒度视觉理解​ ​,本文提出了一个​​增强流程(enhanced pipeline)​ ​,为每个特定区域生成:​​清晰的概念解释(clear conceptual explanations)​ ​、​​上下文功能角色(contextual functional roles)​ ​ 和​​详细描述(detailed descriptions)​ ​。这种​​多维信息(multi-dimensional information)​ ​ 旨在​​显著提升用户理解​ ​,特别是对于​​不常见术语或陌生主题​ ​。为实现这一点,本文利用​​最新的 VLMs​ ​,借助其​​广泛的世界知识和强大的视觉理解能力​ ​来辅助精炼。具体来说,本文应用​​掩码集合方法(Set of Mask, SoM)[75]​ ​ 来​​识别感兴趣区域​ ​,并使用​​原始标注作为上下文​ ​来​​引导模型生成期望的响应​ ​,这些响应随后经过​​人工质量保证(manual quality assurance)​​。图 5(左)展示了一个说明性示例。更多细节见附录 B.1。

视频数据集(Video Dataset)​

​区域级视频描述(Region-level Video Caption)​

为了将模型的​​区域描述能力扩展到视频​ ​,本文收集并分析了几个现有的视频数据集,包括​​参考检测与分割数据集(referring detection and segmentation datasets)​ ​[71, 47, 18, 62, 58, 17, 85, 64],以及近期为 ​​SAV [53] 数据集​ ​添加的 ​​Sa2VA [79] 标注​ ​。这些数据集旨在基于文本描述检测、分割和描述视频中的特定对象,但其描述往往​​过于粗糙、简单、不准确或主要是静态的​ ​,​​忽略了关键的时间细节​ ​,例如​​物体运动、交互以及整个视频中的状态变化​​。

为了应对现有局限性,本文提出了​​故事板驱动的描述扩展方法(storyboard-driven caption expansion method)​ ​。该过程包含几个关键阶段:

(1) ​​关键帧采样(Keyframe Sampling)​ ​:从每个视频中​​均匀提取六个关键帧​ ​。

(2) ​​故事板合成(Storyboard Synthesis)​ ​:将这些提取的关键帧​​组合​ ​成一张​​高分辨率合成图像​ ​,以​​故事板格式(storyboard format)​ ​ 呈现(如图 5 所示)。

(3) ​​以对象为中心的高亮(Object-Centric Highlighting)​ ​:在此合成图像中,​​每个单独的帧​ ​使用​​彩色边界框或掩码​ ​(通过 ​​SoM 实现​ ​)​​专门突出显示目标对象​ ​。

(4) ​​LLM 驱动的精炼(LLM-Powered Elaboration)​ ​:然后,以​​原始标注作为条件​ ​,本文​​提示 GPT-4o​ ​ 生成​​既精炼、详细又具有时间感知(temporally aware)​ ​ 的描述。这种​​多帧整合(multiframe consolidation)​ ​ 至关重要,因为它​​增强了 GPT-4o 的上下文理解能力​ ​,相比单帧分析能​​产生更优的描述​​。

​区域级流式视频描述(Region-level Streaming Video Caption)​

除了描述整个视频,本文的目标是​​将模型的能力扩展到流式方式​ ​。为实现这一点,本文对精炼后的区域级视频描述数据进行了​​额外的增强(additional augmentation)​​。具体来说:

  • 本文首先采用 ​TRACE-Uni 模型 [22]​ 将输入视频​分割成多个不同的事件(distinct events)​ ,每个事件由其​时间边界(temporal boundaries)​ 界定。
  • 随后,对于每个分割出的视频片段,本文应用相同的 ​'故事板驱动'处理方法​
  • 为了生成​精确且连续的事件描述​ ,本文​重新设计了 GPT-4o 的输入提示(input prompt)​ ,使其​迭代地纳入前一个视频片段的描述​ 作为​处理当前片段的上下文信息​
    整个工作流程如图 5(右)所示。

Experiments

Figure 6: PAM provides various semantic granularities informantion and support bilingual outputs.

Appendix

A. Configuration for Each Training Stage

B. Dataset



相关推荐
亿牛云爬虫专家2 小时前
小红书视频图文提取:采集+CV的实战手记
音视频·爬虫代理·短视频·代理ip·品牌营销·小红书·热点分析
摆渡搜不到你4 小时前
某腾X视频下载器2.1
python·音视频
小草cys7 小时前
使用 Coze 工作流一键生成抖音书单视频:全流程拆解与技术实现
人工智能·音视频·工作流·coze
Jack1530276827915 小时前
GC1808:高性能音频ADC的卓越之选
单片机·嵌入式硬件·音视频·医疗器械·电动工具·家电产品
想躺在地上晒成地瓜干15 小时前
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
linux·网络·音视频·树莓派·raspberrypi·树莓派教程
追随远方15 小时前
Android高性能音频与图形开发:OpenSL ES与OpenGL ES最佳实践
android·elasticsearch·音视频
Sleepless_斑马15 小时前
【FFmpeg学习(2)】视频概念
学习·ffmpeg·音视频
加油搞钱加油搞钱17 小时前
鹰盾加密器基于AI的视频个性化压缩技术深度解析:从智能分析到无损压缩实践
人工智能·音视频·视频加密·鹰盾加密·鹰盾播放器
9527华安18 小时前
国产安路FPGA实现图像视频采集转HDMI输出,提供5套TD工程源码和技术支持
fpga开发·音视频·安路·安路fpga·tangdynasty
深圳市青牛科技实业有限公司 小芋圆1 天前
GC1809:高性能音频接收与转换芯片
科技·单片机·嵌入式硬件·音视频·智能家居·新能源