SAMWISE:为文本驱动的视频分割注入SAM2的智慧

论文题目:SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation(为文本驱动的视频分割注入SAM2的智慧)

会议:CVPR2025

摘要:参考视频对象分割(RVOS)依赖于自然语言表达式来分割视频片段中的对象。现有的方法将推理限制在独立的短片段上,失去了全局上下文,或者离线处理整个视频,从而削弱了它们在流媒体中的应用。在这项工作中,我们的目标是超越这些限制,设计一种RVOS方法,能够有效地在类似流的场景中运行,同时保留来自过去框架的上下文信息。我们建立在segmentanyanything 2 (SAM2)模型的基础上,它提供了鲁棒的分割和跟踪功能,非常适合流处理。我们让SAM2变得更聪明,通过在特征提取阶段赋予它自然语言理解和显式时间建模,而不需要对其权重进行微调,也不需要将模态交互外包给外部模型。为此,我们引入了一种新的适配器模块,在特征提取过程中注入时间信息和多模态线索。我们进一步揭示了SAM2中的跟踪偏差现象,并提出了一个可学习的模块,当当前帧特征建议一个与标题更一致的新对象时,可以调整其跟踪焦点。我们提出的方法SAMWISE通过添加一个可忽略不计的开销,即小于5m的参数,在各种基准测试中达到了最先进的水平。

代码可在https://github.com/ ClaudiaCuttano/SAMWISE获得。

核心贡献: 这是首个将自然语言理解能力集成到SAM2模型中的端到端解决方案,用于指称视频对象分割(RVOS)任务。


一、论文要解决的问题

1.1 传统RVOS方法的局限性

**参考视频对象分割(Referring Video Object Segmentation, RVOS)**是一个重要的计算机视觉任务,目标是根据自然语言描述在视频中分割并跟踪特定对象。然而,现有方法面临以下困境:

🔴 问题1: 短片段处理 vs 全局上下文的权衡

  • 独立短片段处理:大多数现有方法将视频分割成短片段独立处理,导致丢失全局上下文信息
  • 离线全视频处理:虽然能获得全局信息,但无法适应流式处理场景(如实时应用)
  • 这种两难困境在MeViS数据集上体现得尤为明显,该数据集包含需要长期运动理解的复杂场景

🔴 问题2: 缺乏长期记忆机制

  • OnlineRefer虽然提出了在线RVOS方案,但仅依赖单帧的过去上下文
  • 无法有效捕捉长期时序依赖关系

1.2 将SAM2扩展到RVOS的挑战

SAM2(Segment-Anything 2)是一个强大的基础模型,具有流式处理能力和记忆机制。但将其应用于RVOS面临三大非平凡挑战:

🎯 挑战1: 文本理解能力缺失
  • SAM2原始设计仅支持空间提示(如点、框)
  • 缺乏理解语义文本提示的机制,无法进行视觉-文本跨模态推理
🎯 挑战2: 时序建模不足
  • SAM2独立提取每帧特征,缺乏时序推理能力
  • 无法理解需要多帧展开的动作(如"爬上"、"超越"等动词)
🎯 挑战3: 追踪偏差(Tracking Bias)
  • 核心问题:当目标对象在某些时间段不可识别时(遮挡、多实例、动作未发生),SAM2可能开始追踪错误对象
  • 一旦锁定错误对象,即使正确对象后来出现,也会持续追踪错误目标
  • SAM2的设计允许人工手动纠正,但在无人工干预的RVOS任务中无法应用

二、SAMWISE的创新解决方案

论文提出的SAMWISE方法通过三大创新模块巧妙解决了上述挑战:

2.1 整体架构设计

核心设计理念

  • ✅ 冻结SAM2和文本编码器权重,保留原始能力
  • ✅ 不依赖外部大型VLM模型,避免额外计算开销
  • ✅ 仅训练轻量级适配器模块(<5M参数)

2.2 创新点1: 跨模态时序适配器(CMT)

Cross-Modal Temporal Adapter (CMT) 是论文的核心创新,用于解决文本理解和时序建模问题。

📌 设计原则
  1. 实现视觉与语言模态的双向交互
  2. 将时序线索编码到视觉特征中
📌 三大核心组件

a) 分层选择性注意力(HSA - Hierarchical Selective Attention)

传统方法要么对所有token做自注意力(计算量大),要么只在时间轴上做注意力(局限性强)。HSA的创新在于:

复制代码
关键观察:视频中物体运动通常发生在局部空间区域
创新策略:
1. 将视频特征分解为3D时空块(T×P×P)
2. 在每个子体积内进行自注意力计算
3. 块大小P随特征层级自适应缩放

优势

  • 减少不必要的长距离计算
  • 捕捉局部时空运动上下文
  • 多尺度信息编码

b) 视觉到文本注意力(VTA)

让文本特征随视觉内容动态调整:

  • 问题:文本描述的含义可能随视觉内容变化
  • 解决:用平均视觉特征上下文化文本token
  • 效果:使语言查询适应当前视觉场景

c) 文本到视觉注意力(TVA)

让视觉特征早期就对齐文本描述:

  • 每个视觉特征关注完整文本表达
  • 基于类别细节(如"猫")和动作线索(如"爬")识别候选区域
  • 从特征提取早期就实现跨模态对齐

实验验证:通过PCA可视化清晰展示,CMT使视觉特征根据不同文本提示产生差异化响应。

2.3 创新点2: 双提示策略

为了更好地引导SAM2解码器,论文设计了双提示机制:

🎯 上下文提示(Contextual Prompt)

  • 使用文本特征的[CLS] token
  • 编码整体语义信息
  • 强调查询的关键方面

🎯 运动提示(Motion Prompt)

  • 提取动词嵌入
  • 捕捉动作相关线索
  • 理解时序动态

融合策略

复制代码
ρ = MLP([Contextual_Prompt, Motion_Prompt])

2.4 创新点3: 条件记忆编码器(CME)

这是解决"追踪偏差"问题的关键创新。

📌 问题分析

追踪偏差的产生过程

  1. 初始帧目标对象不可识别(如例子中"爬上猫树的猫"初始并未爬)
  2. SAM2开始追踪部分匹配的错误对象
  3. 即使正确对象后来执行了动作,SAM2仍持续追踪错误目标
  4. 这种偏差被编码到记忆特征中,传播到后续帧
📌 解决方案

核心洞察

  • 记忆特征(memory features):受过去预测影响,有偏差
  • 无记忆特征(memory-less features)
    • 无偏表示当前帧
    • 通过CMT与文本对齐
    • 可提出与提示匹配的候选实例

CME工作流程

  1. 生成两个token

    • τm(mask token):来自解码器,代表当前追踪对象
    • τl(memory-less token):通过无偏特征与提示交叉注意力生成
  2. 检测不一致

    复制代码
    [决策token, τm, τl] → 自注意力 → 线性分类器 → p_detect
  3. 软分配策略(非硬切换):

    • 当检测到候选对象时(p_detect > 0.5)

    • 融合两个预测的mask:

      P = λ * P_memory-less ◦ M + P_memory ◦ (1 - M)

    • 允许SAM2在保留上下文的同时"看到"其他对象

为什么是软分配?

  • 无记忆特征缺乏历史上下文,可能产生误报
  • 软融合在新信息和过去上下文间取得平衡

三、实验结果与分析

3.1 数据集与评估指标

测试数据集

  • MeViS: 最具挑战性,包含运动推理、实例歧义等复杂场景
  • Ref-Youtube-VOS: 3,978个视频,约15K语言表达
  • Ref-DAVIS17: 90个视频,1.5K语言标注

评估指标

  • J (区域相似度)
  • F (轮廓准确度)
  • J&F (平均值)

3.2 主要结果

📊 与SOTA方法对比

在MeViS上(最具挑战)

方法 文本编码器 总参数 J&F
DsHmp (SOTA) RoBERTa 272M 46.4
SAMWISE RoBERTa 202M 49.5
SAMWISE CLIP-B 150M 48.3

关键发现

  • 超越离线方法DsHmp +3.1%,且参数更少
  • 使用CLIP版本仅150M参数,仍达到SOTA性能

在Ref-Youtube-VOS上

方法 J&F 提升
OnlineRefer 63.5 -
DsHmp 67.1 -
SAMWISE 69.2 +5.7% vs OnlineRefer
+2.1% vs DsHmp

在Ref-DAVIS17上

  • SAMWISE: 70.6 J&F
  • 比前SOTA提升 +5.7%
📊 与大型VLM方法对比

虽然参数量不在一个量级,但SAMWISE表现出色:

方法 参数 MeViS J&F
VISA (VLM-based) 7B 43.5
SAMWISE 202M 49.5 (+6.0%)

3.3 消融实验

🔬 CMT各组件的贡献
配置 J&F 提升
仅MLP 45.2 baseline
+ TVA + VTA 48.3 +3.1
+ HSA 50.3 +2.0
+ 完整CMT 54.2 +3.9
+ CME 55.5 +1.3

分析

  • 跨模态交互(TVA+VTA)贡献显著(+3.1%)
  • 时序建模(HSA)进一步提升(+2.0%)
  • CME有效缓解追踪偏差(+1.3%)
🔬 HSA的设计选择

补丁大小的影响

配置 J&F
P=1 (逐像素) 49.7
P=4 52.3
P=8 53.1
分层 (16/8/4) 54.2

结论:分层补丁设计最优,适应不同特征分辨率。

🔬 CME的有效性
策略 J&F
从不检测 54.2
每帧检测 50.7
随机(1/4帧) 52.4
CME预测 55.5

结论

  • 总是检测会引入噪声(-3.5%)
  • CME智能检测最有效(+1.3%)

3.4 与其他适配策略对比

方法 MeViS J&F
全微调 43.1
LoRA 44.2
AdaptFormer 43.9
CMT (ours) 48.3

结论:CMT专为跨模态时序任务设计,显著优于通用适配方法。


四、技术亮点与创新价值

4.1 方法论创新

  1. 首个SAM2的文本扩展方案

    • 保留SAM2原始能力(冻结权重)
    • 无需外部VLM模型
    • 参数高效(<5M可训练参数)
  2. 早期跨模态融合

    • 不同于以往在解码器层面的后期融合
    • 在特征提取阶段就实现模态交互
    • 更深层的视觉-文本对齐
  3. 时序推理的精细设计

    • HSA的局部时空注意力兼顾效率与效果
    • 多尺度分层设计捕捉不同粒度的运动

4.2 问题发现价值

追踪偏差(Tracking Bias)的识别

  • 论文首次系统性揭示SAM2的这一现象
  • 提出了针对性的解决方案(CME)
  • 为社区提供了重要洞察

4.3 实用价值

  1. 流式处理能力

    • 无需一次性加载整个视频
    • 适合实时应用和资源受限场景
  2. 参数效率

    • 150M-202M总参数(vs VLM方法的数十亿参数)
    • 训练成本低,部署友好
  3. 泛化能力强

    • 在三个不同风格的数据集上均达到SOTA
    • 既擅长复杂运动推理(MeViS)也适用于传统场景

五、局限性与未来方向

当前局限

  • 依赖预训练的文本和视觉编码器
  • CME需要额外的自监督训练
  • 在极端遮挡场景下仍有改进空间

未来展望

  • 探索更轻量级的时序建模方案
  • 扩展到多对象同时分割场景
  • 与其他视觉任务(如深度估计)结合

六、结论

SAMWISE成功地让SAM2"智慧"起来,实现了三个重要突破:

  1. ✅ 文本理解:通过CMT适配器赋予SAM2语言理解能力
  2. ✅ 时序建模:HSA机制有效捕捉视频中的运动演化
  3. ✅ 追踪纠正:CME智能调整追踪焦点,避免偏差积累

最终结果令人印象深刻:

  • 在所有基准测试中达到SOTA性能
  • 仅增加<5M参数
  • 保持流式处理能力,适合实际应用

这项工作为视频理解领域提供了一个优雅且高效的解决方案,展示了如何通过精心设计的轻量级模块,充分挖掘大型预训练模型的潜力,而无需昂贵的全面微调或依赖外部重量级模型。


本文详细解读了CVPR 2025论文《SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation》,希望能帮助读者深入理解这项创新工作的技术细节和价值。

相关推荐
antonytyler2 小时前
机器学习实践项目(二)- 房价预测增强篇 - 特征工程一
人工智能·机器学习
N 年 后2 小时前
cursor和传统idea的区别是什么?
java·人工智能·intellij-idea
AI Echoes2 小时前
LangChain 使用语义路由选择不同的Prompt模板
人工智能·python·langchain·prompt·agent
Wilber的技术分享2 小时前
【大模型实战笔记 6】Prompt Engineering 提示词工程
人工智能·笔记·llm·prompt·大语言模型·提示词工程
小高不会迪斯科2 小时前
大话大模型应用(二)--让大模型听话:Prompt Engineering&Context Engineering
人工智能·prompt
JJJJ_iii2 小时前
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用
人工智能·笔记·python·机器学习·强化学习
leafff1232 小时前
AI研究:大语言模型(LLMs)需要怎样的硬件算力
大数据·人工智能·语言模型
Wu Liuqi2 小时前
【大模型学习】第一章:自然语言处理(NLP)核心概念
人工智能·学习·自然语言处理·大模型·大模型转行
新智元2 小时前
全球十大AI杀入美股!最新战况曝光,第一名太意外
人工智能·openai