文章目录
- 总结
- 摘要
- [01 引言](#01 引言)
- [02 相关工作](#02 相关工作)
- [03 方法](#03 方法)
-
- [3.1 问题表述](#3.1 问题表述)
- [3.2 时间相关性信号建模](#3.2 时间相关性信号建模)
- [3.3 基于小波的帧选择](#3.3 基于小波的帧选择)
-
- [3.3.1 基于小波的语义边界识别](#3.3.1 基于小波的语义边界识别)
- [3.3.2 自适应预算分配](#3.3.2 自适应预算分配)
- [3.3.3 多样性感知的片段内帧选择](#3.3.3 多样性感知的片段内帧选择)
- [04 实验](#04 实验)
-
- [4.1 实验设置](#4.1 实验设置)
- [4.2 与最先进方法的比较](#4.2 与最先进方法的比较)
- [4.3 消融研究](#4.3 消融研究)
- [4.4 复杂度与时间分析](#4.4 复杂度与时间分析)
- [4.5 可视化分析](#4.5 可视化分析)
- [05 结论](#05 结论)
- 附录
-
- [06 局限性与未来工作](#06 局限性与未来工作)
-
- [6.1 局限性](#6.1 局限性)
- [6.2 未来工作](#6.2 未来工作)
- [07 方法的进一步解释](#07 方法的进一步解释)
-
- [7.1 信号特征的可视化](#7.1 信号特征的可视化)
- [7.2 峰值检测算法:详细公式](#7.2 峰值检测算法:详细公式)
- [08 附加实验结果](#08 附加实验结果)
-
- [8.1 与更多基线方法的比较](#8.1 与更多基线方法的比较)
- [8.2 扩展的帧预算和模型消融](#8.2 扩展的帧预算和模型消融)
- [8.3 不同帧率下的性能](#8.3 不同帧率下的性能)
- [8.4 用于查询-帧匹配的扩展 VLM 比较](#8.4 用于查询-帧匹配的扩展 VLM 比较)
- [8.5 超参数消融:片段过滤](#8.5 超参数消融:片段过滤)
- [8.6 附加定性示例](#8.6 附加定性示例)
Wavelet-based Frame Selection by Detecting Semantic Boundary for Long Video Understanding
王晨 1 ^{1} 1,曾宇辉 1 ^{1} 1,罗永东 1 ^{1} 1,谢天宇 1 ^{1} 1 林洛君 2 ^{2} 2,纪嘉怡 1 ^{1} 1,张燕 1 ^{1} 1,郑晓武 1 ∗ ^{1*} 1∗
1 ^{1} 1厦门大学,多媒体可信感知与高效计算教育部重点实验室; 2 ^{2} 2福州大学,计算机与数据科学学院
总结

GPT 生成的这图也可以参考

摘要
在将大型视觉语言模型(Large Vision-Language Models, LVLMs)应用于长视频时,由于帧冗余度高且上下文窗口有限,帧选择至关重要。现有方法通常选择与给定查询高度相关的帧,得到的是一组不连续的帧,忽略了视频的叙事结构。本文提出基于语义边界检测的小波帧选择方法(Wavelet-based Frame Selection by Detecting Semantic Boundary, WFS-SB),这是一个无需训练 的框架,并提出了一种新的视角:有效的视频理解不仅依赖于高相关性,更重要的是捕获语义变化,即叙事发生变化的关键时刻,这些时刻对于理解视频的整体故事线至关重要。然而,由于模型不确定性和瞬时视觉变化带来的高频噪声,直接检测查询-帧相似度信号中的突变往往并不可靠。为解决这一问题,我们利用小波变换,它能够在时间域和频率域中进行多分辨率分析,因此提供了一种理想的解决方案。通过应用该变换,我们将噪声信号分解到多个尺度,并从最粗尺度中提取干净的语义变化信号。我们将该信号的局部极值识别为语义边界,从而将视频划分为连贯的片段。在此基础上,WFS-SB 包含一种两阶段策略:首先,基于组合重要性得分为每个片段自适应地分配帧预算 ;其次,在每个片段内部,采用最大边际相关性(Maximal Marginal Relevance)方法选择一组兼具多样性和相关性的帧 。大量实验表明,WFS-SB 显著提升了 LVLM 的性能,例如在 VideoMME 上将准确率提升了 5.5 % 5.5\% 5.5%,在 MLVU 上提升了 9.5 % 9.5\% 9.5%,在 LongVideoBench 上提升了 6.2 % 6.2\% 6.2%,并持续优于现有最先进方法。
01 引言
大型语言模型(Large Language Models, LLMs) [ 1 , 33 ] [1, 33] [1,33] 的显著成功推动了强大的大型视觉语言模型(Large Vision-Language Models, LVLMs)的发展,使其能够进行复杂的多模态推理 [ 16 , 34 , 46 ] [16, 34, 46] [16,34,46],近期还进一步扩展到了视频领域 [ 15 , 22 ] [15, 22] [15,22]。尽管这些模型在短视频片段上表现出令人印象深刻的性能,但将其应用于长视频时仍面临一个根本瓶颈:海量视频帧与有限的计算预算和固定大小的上下文窗口之间存在冲突。
直接处理每一帧是不可行的,因此需要一种策略来压缩视觉流。因此,识别一个简洁且具有代表性的帧子集,即关键帧选择 ,已经成为将 LVLM 部署到真实世界长视频中的关键前提。尽管也存在扩展上下文窗口 [ 17 , 42 ] [17, 42] [17,42] 或视频到文本摘要 [ 5 , 21 , 24 ] [5, 21, 24] [5,21,24] 等替代方案,但它们通常会带来难以承受的计算开销,或存在显著信息丢失的风险。因此,帧选择提供了一种更加直接且平衡的方法,但这也引出了一个问题:什么才构成最优的选择?
现有方法通常选择与给定查询具有最高相关性得分的帧。然而,这种方法忽视了视频的叙事结构,就像通过选择一本书中最精美的插图页面来理解其情节一样。由此得到的帧集合虽然单独来看具有相关性,但整体上是割裂的,无法捕获因果关系、发展过程或流程。例如,如图 1 所示,现有方法往往会检索到展示眼睛的分散帧,却无法反映连续的操作过程。本文提出基于语义边界检测的小波帧选择方法(Wavelet-based Frame Selection by Detecting Semantic Boundary, WFS-SB),这是一个无需训练的框架,并提出了一种新的视角:有效的视频理解不应只关注"哪些帧具有高相关性",而应关注"故事的章节何时发生变化"。这些章节变化时刻表现为查询-帧相似度信号中的突变,例如从"烹饪"转变为"进食"。然而,由于模型不确定性或偶然视觉变化带来的高频噪声,原始信号通常充满噪声,使得直接检测这些边界并不可靠。

面对这一挑战,我们将边界检测重新表述为一个信号处理问题。小波变换成为分析这种非平稳且含噪相关性信号的理想工具。它能够在时间域和频率域中进行多分辨率分析,使我们能够有效地区分有意义的宏观语义变化与虚假的高频噪声 。通过应用多层小波分解,我们从最粗尺度中提取干净的语义变化信号,其局部极值能够准确识别时间语义边界。这些边界能够有效地将视频划分为连贯的部分,类似于故事中的章节。
基于这种分段,WFS-SB 实现了一种两阶段选择策略:首先,基于组合重要性得分为每个片段自适应地分配帧预算;其次,在每个片段内部,采用最大边际相关性方法选择一组兼具多样性和相关性的帧。大量实验表明,WFS-SB 在多个基准上显著提升了 LVLM 的性能。例如,当将其应用于输入帧数为 8 8 8 的 LLaVA-Video-7B 时,它在 VideoMME 上将准确率提升了 5.5 % 5.5\% 5.5%,在 MLVU 上提升了 9.5 % 9.5\% 9.5%,在 LongVideoBench 上提升了 6.2 % 6.2\% 6.2%,并持续优于现有最先进方法。
我们的贡献有三点:
- 我们提出了一种用于帧选择的新视角,即优先捕获语义变化,而不是仅仅关注高相关性。我们将其表述为一个信号处理问题,并采用小波变换从含噪相关性信号中稳健地检测语义边界。
- 我们提出了 WFS-SB,这是一个无需训练的框架,它将帧选择从孤立的相关性采样推进为一种具有语义结构感知能力的过程,结合了语义分段、自适应预算分配和片段内多样化选择。
- 我们进行了大量实验,证明 WFS-SB 在多个长视频基准上实现了最先进的性能,验证了我们这种语义变化优先方法的优越性。
02 相关工作
用于长视频理解的高效架构与策略。 从早期 CNN-RNN 模型到当代大型视觉语言模型(Large Vision-Language Models, LVLMs) [ 2 , 16 , 46 ] [2, 16, 46] [2,16,46] 的演进,反映了处理日益复杂视觉数据的持续需求。为专门解决长视频问题,研究者主要沿着两条路径展开。第一条路径聚焦于架构创新,例如通过分层注意力或记忆机制来扩展模型上下文窗口 [ 17 , 28 , 42 ] [17, 28, 42] [17,28,42]。第二条路径涉及策略性抽象,包括将视频转换为文本摘要 [ 5 , 19 , 21 , 35 ] [5, 19, 21, 35] [5,19,21,35],或对视觉 token 进行剪枝和合并 [ 14 , 20 , 27 ] [14, 20, 27] [14,20,27]。尽管这些方法具有较强能力,但它们通常会引入显著的计算开销,或在抽象过程中存在丢弃关键视觉细节的风险。这使得轻量级预处理,尤其是帧选择,成为一种重要且实用的补充策略。
小波变换的应用。 小波变换具有局部时频分析能力,因此在众多学科中不可或缺。它是信号与图像处理中的基础工具,可用于去噪和压缩等任务,例如 JPEG 2000 标准 [ 9 , 32 , 40 ] [9, 32, 40] [9,32,40]。其多尺度特性也非常适合分析复杂的物理现象,例如湍流和地震信号 [ 7 ] [7] [7]。近年来,小波被引入机器学习中,作为强大的特征提取器,并用于增强深度学习架构 [ 29 ] [29] [29]。在本文中,我们创新性地将小波变换应用于一个新的领域:在用于视频帧选择的查询相关性信号中识别语义边界。
用于长视频理解的帧选择。 帧选择方法为解决 LVLM 中固定上下文窗口的限制提供了一种实用方案。早期技术依赖于低层次、与查询无关的线索,例如镜头边界 [ 23 , 26 ] [23, 26] [23,26],而现代方法则更加复杂。我们将其大致分为基于训练的方法和无需训练的方法。基于训练的方法学习一种选择策略,但可能需要大量数据,并且计算开销较高 [ 3 , 11 , 38 ] [3, 11, 38] [3,11,38]。因此,无需训练的方法因其灵活性而受到关注。代表性策略包括逆变换采样(BOLT [ 18 ] [18] [18])、马尔可夫决策过程(MDP 3 ^3 3 [ 30 ] [30] [30])、联合相关性-覆盖率优化(AKS [ 31 ] [31] [31])、子图选择(KFC [ 6 ] [6] [6])、动态分辨率处理(Q-frame [ 43 ] [43] [43])、时间对象中心搜索(T* [ 37 ] [37] [37])以及迭代推理(A.I.R. [ 48 ] [48] [48])。然而,大多数现有方法仍然关注对单独相关帧进行采样,往往无法捕获视频的整体语义结构。我们的工作 WFS-SB 通过首先采用一种小波驱动的、无需训练的方法来检测语义边界,从而在选择之前保留视频的结构完整性,弥补了这一不足。
03 方法
3.1 问题表述
给定一个由 T T T 帧组成的视频 V \mathcal{V} V 和一个用户查询 q q q,帧选择任务旨在提取一个简洁但具有代表性的帧子集 F = { f 1 , f 2 , ... , f K } \mathcal{F} = \{f_1, f_2, \ldots, f_K\} F={f1,f2,...,fK},其中索引按时间顺序排列,且 K ≪ T K \ll T K≪T。 K K K 的取值通常预先确定,同时考虑大视觉语言模型(LVLMs)的上下文长度限制,以及下游应用或用户偏好的具体需求。最终目标是选择 F \mathcal{F} F,使其与查询 Q Q Q 一起作为视觉上下文时,LVLM 能够产生尽可能准确且信息丰富的响应。
为了量化每一帧与查询之间的语义相关性,我们首先以每秒 1 帧(1 frame-per-second,fps)的方式对视频进行均匀子采样,得到一个包含 N N N 帧的序列。对于每个采样帧 f t f_t ft,我们使用预训练视觉语言模型计算图文匹配(Image-Text Matching,ITM)得分:
s t = M ( q , f t ) , t = 1 , ... , N (1) s_t = \mathcal{M}(q, f_t), \quad t = 1, \ldots, N \tag{1} st=M(q,ft),t=1,...,N(1)
其中, M \mathcal{M} M 表示 BLIP-2 的 ITM head。值得注意的是,我们仅使用其 ITM head 进行得分计算,而不涉及大规模解码器部分。这些得分构成了我们后续分析的基础。
3.2 时间相关性信号建模
我们并非将 ITM 得分 { s t } t = 1 N \{s_t\}_{t=1}^{N} {st}t=1N 视为彼此孤立的相关性度量,而是采用信号处理视角:这些得分共同构成一个"时间相关性信号"------一种连续波形,用于编码视频与查询之间的语义对齐程度如何随时间演化。这种重新表述使我们能够利用信号分析中的强大工具来识别视频内容中的结构性转变。然而,该时间相关性信号具有三个具有挑战性的特征:
非平稳性。 这是该信号最关键的特征。视频内容的动态性决定了信号的统计特性会随时间发生剧烈变化。一个与查询高度相关的语义片段(例如,"一个人拥抱另一个人")可能只在几秒内出现,从而导致信号产生尖锐的局部波动。相比之下,在不相关片段中,信号可能会稳定地保持在较低水平。傅里叶变换等传统全局分析工具并不适用,因为它们无法捕捉这些变化发生的时间位置。
多尺度结构。 视频中语义连贯的片段天然具有不同的时间尺度。一个快速动作(例如,"挥手")可能只跨越少数几帧,在信号中表现为尖锐、短暂的脉冲。相反,一个持续时间较长的过程(例如,"整个烹饪过程")可能延续数百帧,表现为缓慢而宽泛的峰值。我们需要一种能够同时解析宏观趋势和微观细节的分析工具。
低信噪比。 原始相关性信号中充斥着大量噪声。这些噪声来源于多个方面:1)模型不确定性:对于视觉上相似但语义上并不明确的帧,VLM 内部表示的轻微扰动可能导致得分抖动。2)跨模态歧义:文本查询与视觉内容之间的语义对齐本身具有歧义性。3)视觉伪影:与查询语义无关的因素,例如光照变化、物体遮挡或相机运动,都可能引起非预期的得分波动。这种高频噪声会严重干扰真实语义边界的识别,使得基于简单幅值阈值或朴素梯度检测的方法极易失败。
这三个特性共同促使我们选择小波变换。小波通过在时间域和频率域中的多分辨率分解,提供了一个在数学上具有原则性的框架,能够同时应对上述三个挑战。
3.3 基于小波的帧选择
如图 2 所示,该方法在一个层次化流程中集成了三个核心组件:(1)基于小波的语义边界识别 ------通过小波变换识别语义边界,将视频划分为时间上连贯的片段;(2)自适应预算分配 ------计算片段重要性得分,并在各片段之间非均匀地分配帧预算;(3)多样性感知的片段内帧选择 ------在每个片段分配到的预算内进行多样性驱动的选择。该层次化设计能够保留叙事结构,并同时确保局部细节和全局连贯性。

3.3.1 基于小波的语义边界识别
为了解决第 3.2 节中概述的挑战,我们采用离散小波变换(Discrete Wavelet Transform,DWT)。其多分辨率分析特别适合对相似度得分序列进行分解,使我们能够从瞬时噪声中分离出大尺度语义转变,并准确识别语义边界。
自适应多层分解。 我们使用 Daubechies-4(db4)小波对 ITM 得分序列 { s t } t = 1 N \{s_t\}_{t=1}^{N} {st}t=1N 应用 DWT,该小波在平滑性和紧支撑性之间提供了良好的折中。DWT 递归地对信号进行滤波,在每一层 j j j 将其分解为低频近似系数 a j a_j aj 和高频细节系数 d j d_j dj。关键参数是分解层数 J J J,我们根据序列长度 N N N 自适应地设置该参数:
J = max ( 1 , ⌊ log 2 N ⌋ − l ) , (2) J = \max \left(1, \left\lfloor \log_2 N \right\rfloor - l \right), \tag{2} J=max(1,⌊log2N⌋−l),(2)
其中, l l l 是控制分解深度的漂移因子,设置为 3。该自适应策略确保分析尺度与信号持续时间相适应;对于较长视频,它使用更大的 J J J 以关注粗粒度、稳定的成分,而对于较短视频,则使用更小的 J J J 以保留关键的时间细节。最终的 DWT 输出是原始信号的多尺度表示:
D W T ( s t ) = { a J , d J , d J − 1 , ... , d 1 } . (3) \mathrm{DWT}(s_t) = \{a_J, d_J, d_{J-1}, \ldots, d_1\}. \tag{3} DWT(st)={aJ,dJ,dJ−1,...,d1}.(3)
【260527】 每一层小波分解,本质上都是"继续分解上一层的低频近似部分",不是每次都去分解高频部分。
- 视频越长,就分解得越深,去看更粗粒度、更稳定的语义变化。
- 作者后面真正关心的是 最粗尺度的细节系数 d J d_J dJ,因为语义边界通常不是某一帧的小抖动,而是比较大的、稳定的语义变化。
语义变化特征提取。 语义边界的特征是 ITM 得分中显著的大尺度变化,而不是高频波动。这些缓慢变化但幅度较大的变化 由最粗尺度上的细节系数 d J d_J dJ 捕获。为了分离这一特定特征,我们使用逆离散小波变换(Inverse Discrete Wavelet Transform,IDWT)进行重构,其中仅保留 d J d_J dJ 系数,并将其他所有系数置零:
s ~ t = I D W T ( { 0 , d J , 0 , ... , 0 } ) . (4) \tilde{s}_t = \mathrm{IDWT}(\{0, d_J, 0, \ldots, 0\}). \tag{4} s~t=IDWT({0,dJ,0,...,0}).(4)
所得信号 { s ~ t } \{\tilde{s}_t\} {s~t} 表示 ITM 得分中反映粗粒度时间变化的成分,它有效地作为语义变化的鲁棒指示器,同时自然抑制集中在更细尺度系数(例如 d 1 , d 2 d_1, d_2 d1,d2)中的高频噪声。
【260527】为什么要 IDWT 重建?
因为 d J d_J dJ 本身是小波系数,不太方便直接对应到原视频的时间点。作者通过 IDWT 把它重建回时间域,这样每个时间位置 t t t 都有一个对应的语义变化强度。之后作者就可以对 s ~ t \tilde{s}_t s~t 取绝对值,再找峰值。峰值大的地方,就认为是语义边界候选点。
语义边界检测。 最显著的语义变化时刻对应于变化指示信号 s ~ t \tilde{s}_t s~t 幅值的局部极值。因此,我们将变化强度信号定义为 c t = ∣ s ~ t ∣ c_t = |\tilde{s}_t| ct=∣s~t∣,并对其应用峰值检测算法。该过程通过使用自适应高度阈值和显著性阈值,识别显著边界的时间索引,同时过滤由残余噪声产生的伪峰值。令 B = { b 1 , ... , b M } \mathcal{B} = \{b_1, \ldots, b_M\} B={b1,...,bM} 表示检测到的边界索引集合。这些边界将视频划分为 M + 1 M + 1 M+1 个时间语义片段:
G = { [ 1 , b 1 ] , [ b 1 + 1 , b 2 ] , ... , [ b M + 1 , N ] } , (5) \mathcal{G} = \{[1, b_1], [b_1 + 1, b_2], \ldots, [b_M + 1, N]\}, \tag{5} G={[1,b1],[b1+1,b2],...,[bM+1,N]},(5)
其中,每个片段表示一个与查询具有稳定相关性的时间连贯单元。这些片段构成后续帧选择的结构基础。
3.3.2 自适应预算分配
一旦建立时间语义片段,我们便根据每个片段的语义重要性分配总帧预算 K K K。这种自适应策略确保语义关键片段获得更密集的覆盖,从而优化全局视频理解与细粒度局部细节之间的权衡。
片段重要性得分。 我们通过整合多种相关性线索,为每个时间语义片段 G i \mathcal{G}_i Gi 计算一个综合重要性得分 I m p ( G i ) \mathrm{Imp}(\mathcal{G}_i) Imp(Gi):
I m p ( G i ) = w d ⋅ ∣ G i ∣ N + w a ⋅ s ˉ i + w m ⋅ s i max + w v ⋅ σ i 2 σ g l o b a l 2 , (6) \mathrm{Imp}(\mathcal{G}_i) = w_d \cdot \frac{|\mathcal{G}_i|}{N} + w_a \cdot \bar{s}i + w_m \cdot s_i^{\max} + w_v \cdot \frac{\sigma_i^2}{\sigma{\mathrm{global}}^2}, \tag{6} Imp(Gi)=wd⋅N∣Gi∣+wa⋅sˉi+wm⋅simax+wv⋅σglobal2σi2,(6)
其中, ∣ G i ∣ / N |\mathcal{G}_i|/N ∣Gi∣/N 表示归一化的片段持续时间, s ˉ i \bar{s}i sˉi 是平均相关性得分, s i max s_i^{\max} simax 是最大相关性得分, σ i 2 / σ g l o b a l 2 \sigma_i^2 / \sigma{\mathrm{global}}^2 σi2/σglobal2 是片段内相关性得分方差与全局相关性得分方差之间的比值。这些项共同度量一个片段的持续时间、平均重要性、峰值显著性和内部内容多样性。系数 w d , w a , w m , w v w_d, w_a, w_m, w_v wd,wa,wm,wv 是权重因子,默认设置为 0.4 , 0.2 , 0.3 , 0.1 0.4, 0.2, 0.3, 0.1 0.4,0.2,0.3,0.1。
【260527】
片段有多长 + 片段整体是否相关 + 片段里有没有特别关键的一帧 + 片段内部变化是否丰富
片段过滤。 为了将预算集中在显著内容上,我们剪除重要性得分较低的片段。具体而言,对于任意满足 I m p ( G i ) \mathrm{Imp}(\mathcal{G}_i) Imp(Gi) 低于自适应阈值 τ \tau τ 的片段 G i \mathcal{G}_i Gi,我们将其丢弃,其中 τ = m e a n ( I m p ) − η ⋅ s t d ( I m p ) \tau = \mathrm{mean}(\mathrm{Imp}) - \eta \cdot \mathrm{std}(\mathrm{Imp}) τ=mean(Imp)−η⋅std(Imp)。参数 η \eta η 控制过滤强度,并设置为 1.2。
Softmax 加权预算分配。 随后,我们在重要性得分上采用 softmax 函数,为每个保留下来的片段 G i \mathcal{G}_i Gi 分配成比例的预算 k i k_i ki:
k i = ⌊ K ⋅ exp ( I m p ( G i ) ) ∑ j exp ( I m p ( G j ) ) ⌋ , (7) k_i = \left\lfloor K \cdot \frac{\exp(\mathrm{Imp}(\mathcal{G}_i))}{\sum_j \exp(\mathrm{Imp}(G_j))} \right\rfloor, \tag{7} ki=⌊K⋅∑jexp(Imp(Gj))exp(Imp(Gi))⌋,(7)
为了确保分配是精确的( ∑ k i = K \sum k_i = K ∑ki=K),由向下取整操作剩余的帧会被贪心地分配给具有最大小数部分的片段。
【260527】这里分给最大小数部分感觉有点不合理,或者说这里翻译应该是最大分数部分呢?
3.3.3 多样性感知的片段内帧选择
在为每个时间语义片段 G i \mathcal{G}_i Gi 分配预算 k i k_i ki 后,最后一步是在该片段内部选择具体的帧。这种局部化的选择策略至关重要:它防止某个片段中的帧被另一个片段中视觉相似的帧抑制,同时保持每个片段内部的帧多样性。
对于每个片段 G i \mathcal{G}i Gi,我们首先选择其中最相关的帧作为锚点。我们识别该帧的索引 t a n c h o r t{\mathrm{anchor}} tanchor,并用它初始化该片段的已选索引集合 T i \mathcal{T}i Ti: t a n c h o r = arg max t ∈ G i s t , T i = { t a n c h o r } t{\mathrm{anchor}} = \arg\max_{t \in \mathcal{G}_i} s_t, \mathcal{T}i = \{t{\mathrm{anchor}}\} tanchor=argmaxt∈Gist,Ti={tanchor}。为了选择剩余的 k i − 1 k_i - 1 ki−1 帧,我们采用局部化的最大边际相关性(Maximal Marginal Relevance,MMR)方法 [4]。该方法通过平衡相关性和多样性,迭代地识别下一个最佳帧索引 t ∗ t^* t∗:
t ∗ = arg max t ∈ G i ∖ T i [ λ ⋅ s t − ( 1 − λ ) ⋅ max t ′ ∈ T i s i m ( f t , f t ′ ) ] , (8) t^* = \arg\max_{t \in \mathcal{G}_i \setminus \mathcal{T}i} \left[ \lambda \cdot s_t - (1 - \lambda) \cdot \max{t' \in \mathcal{T}i} \mathrm{sim}(f_t, f{t'}) \right], \tag{8} t∗=argt∈Gi∖Timax[λ⋅st−(1−λ)⋅t′∈Timaxsim(ft,ft′)],(8)
其中, s i m ( f t , f t ′ ) \mathrm{sim}(f_t, f_{t'}) sim(ft,ft′) 是候选帧 f t f_t ft 与先前已选帧 f t ′ f_{t'} ft′ 的视觉嵌入之间的余弦相似度。参数 λ \lambda λ(设置为 0.5)平衡相关性和多样性之间的权衡。在找到最优索引 t ∗ t^* t∗ 后,将其加入集合 T i \mathcal{T}_i Ti。重复该过程,直到 ∣ T i ∣ = k i |\mathcal{T}_i| = k_i ∣Ti∣=ki。视频的最终选定关键帧子集是所有片段中全部已选索引对应帧的并集。
【260527】这个公式看起来复杂,其实就是在平衡两件事:
- 这帧和问题是否相关?
- 这帧和已经选过的帧是否太像?
04 实验
4.1 实验设置
基准数据集与骨干模型。 我们在三个长视频问答基准上评估 WFS-SB:VideoMME [8](900 个视频,平均 17 分钟,2,700 个问答对)、MLVU [45](涵盖 7 个类别的 2,174 个问题,平均 11 分钟)和 LongVideoBench(LVB)[36](1,337 对验证集,平均 12 分钟)。我们不使用字幕。为了证明泛化能力,我们将 WFS-SB 集成到四种最先进的 LVLM 中:LLaVA-OneVision-7B [10]、LLaVA-Video-7B [44]、Qwen2.5-VL-7B [2] 和 InternVL3-8B [47],涵盖不同的架构和训练范式。
基线方法。 我们将 WFS-SB 与一系列最先进的帧选择方法进行比较,包括 FrameVoyager [38]、KFC [6]、BOLT [18]、AKS [31]、FrameOracle [11]、MDP 3 ^3 3 [30] 和 A.I.R. [48]。对于有公开代码的方法(†),我们在受控环境中重新评估它们,以确保直接比较。对于其他方法(*),我们引用其原始论文中在可比设置下报告的结果。
实现细节。 候选帧以每秒 1 帧(1 FPS)的方式从每个视频中均匀采样。我们使用 BLIP-2-ITM-ViT-g [13] 计算查询到帧的匹配得分。小波分解漂移因子 l l l 设置为 3,并采用 Daubechies-4(db4)小波。预算分配权重设置为 w d = 0.4 w_d=0.4 wd=0.4、 w a = 0.2 w_a=0.2 wa=0.2、 w m = 0.3 w_m=0.3 wm=0.3、 w v = 0.1 w_v=0.1 wv=0.1,过滤强度因子 η \eta η 设置为 1.2,MMR 参数设置为 λ = 0.5 \lambda=0.5 λ=0.5。所有实验均在 NVIDIA A800 GPU(80 GB 显存)上进行,帧预算 K ∈ { 8 , 16 , 32 , 64 } K \in \{8, 16, 32, 64\} K∈{8,16,32,64}。我们使用 LMMs-Eval 工具包 [41] 报告准确率。
4.2 与最先进方法的比较
表 1 展示了跨所有基准、LVLM 架构和帧预算的综合结果。WFS-SB 展现出强大的即插即用增强能力,在无需模型微调或架构修改的情况下带来稳定提升------在所有配置上,VideoMME 平均提升 3.9%,MLVU 平均提升 8.8%,LongVideoBench 平均提升 +5.4%,验证了其普适适用性。我们的方法以更高效率取得了最先进的准确率,在保持免训练部署和单次推理的同时,优于训练式方法(Frame-Voyager、FrameOracle)和迭代式方法(A.I.R.)。尤其值得注意的是,WFS-SB 在不同基准上表现稳健,并且在严格帧预算下取得了尤为显著的增益(例如,对于 LLaVA-Video-7B 在 K = 8 K=8 K=8 时,MLVU 提升 9.5%,LongVideoBench 提升 6.2%,VideoMME 提升 5.5%),表明我们基于小波的帧选择能够有效适应不同的内容复杂度和时间尺度。

4.3 消融研究
不同采样帧数。 图 3 展示了 WFS-SB 在 VideoMME 上、使用多个骨干模型时,在帧预算 { 8 , 16 , 32 , 64 } \{8, 16, 32, 64\} {8,16,32,64} 下的性能。我们观察到其相较于均匀采样具有稳定提升(+1.2% 至 +5.5%),并且在较小预算( K = 8 , 16 K=8, 16 K=8,16)下提升尤为明显。这验证了当帧资源受限时,边界感知选择变得更加关键,同时也表明该方法在不同 VLM 和预算规模下具有较强泛化性。

不同 LVLM 规模。 为了评估可扩展性,我们在四种规模的 Qwen2.5-VL(3B、7B、32B、72B)上测试 WFS-SB。表 2 显示,该方法分别带来了平均 3.3%、3.7%、+3.0% 和 2.8% 个百分点的稳定提升。这些一致的增益验证了 WFS-SB 的优势与模型规模正交,使其对于资源受限部署(较小模型)和性能关键应用(较大模型)同样具有价值。

用于查询-帧相似度的不同 VLM。 我们研究了用于计算查询-帧相关性的不同 VLM。表 3 比较了四种广泛使用的 VLM:BLIP-ITM、CLIP-VIT-B、SigLIP-so400m 和 BLIP-2-ITM。所有 VLM 在与 WFS-SB 集成后都表现出稳定的性能提升(即使在 CLIP-VIT-B 上也有 3.6% 的提升),验证了我们基于小波的框架在不同特征提取器上的鲁棒性和泛化能力。尽管 BLIP-ITM 在 VideoMME(62.8%)和 LongVideoBench(63.2%)上取得最高性能,但我们选择 BLIP-2-ITM 作为默认设置,因为它在不同设置下提供了更一致的平均收益。BLIP 系列的更大成功突显了专用图文匹配的优势,这得益于其显式的图文对齐目标。

组件消融。 表 4 系统评估了每个组件的贡献,重点强调了基于小波的边界检测的关键作用。将 DWT 替换为朴素替代方法------局部极小值或基于梯度的方法------会导致显著性能下降(VideoMME 上从 61.9 降至 60.8 和 61.2;MLVU 上从 67.9 降至 64.6 和 66.8),其中局部极小值方法在 MLVU 上下降了 -3.3%。这验证了我们的核心假设:小波变换的多尺度分解能够内在地抑制相似度信号中的高频噪声,分离真实语义转变,同时过滤伪波动。相比之下,原始方法会受到噪声放大的影响,导致错误边界检测和片段划分碎片化。除 DWT 之外,移除自适应预算分配(-0.5%)或 MMR 选择(-1.2% 和 -5.2%)也会降低性能,证明所有组件都具有协同贡献(VideoMME 上 +4.2%,MLVU 上 +11.7%)。

小波族与分解层数。 表 5 展示了该方法在不同小波族上的显著鲁棒性,并验证了我们的自适应分解层数公式(公式 2)。当 l = 3 l=3 l=3 时,多个小波族取得高度一致的性能:Db4、Db8、Sym4 和 Bior3.3 在 VideoMME 上均达到 61.9%,而 Haar 达到 61.3%------尽管它们具有不同的数学性质,方差仅为 0.6%。这表明驱动有效性的是多尺度信号分解,而不是特定基函数的选择。我们选择 Db4 且 l = 3 l=3 l=3,因为它在各基准上取得了最佳平衡(61.9%/67.9%)。自适应层数公式被证明十分关键:当 l = 4 l=4 l=4 时,VideoMME 由于过度平滑下降至 60.4%,而 MLVU 由于具有不同的时间尺度提升至 68.3%。公式 2 中的漂移因子会根据视频长度自动调整深度,从而确保在不同持续时间的视频上实现最优噪声抑制。

【260527】
- 换不同的小波函数,会不会明显影响效果?
- 分解层数参数 l 变了,会不会明显影响效果?
WFS-SB 对小波族选择比较鲁棒,换 Db4、Db8、Sym4、Bior3.3 效果差异不大;而分解层数参数 l l l 会影响平滑程度, l = 3 l=3 l=3 在不同数据集上更均衡,因此作者把 Db4 和 l = 3 l=3 l=3 作为默认设置。
超参数敏感性。 WFS-SB 的一个关键优势是尽管包含多个超参数,但其具有较强鲁棒性。表 6 分析了重要性得分权重和 MMR 多样性参数的敏感性。移除任一单个组件都会降低性能(MLVU 上下降 -0.5% 至 -3.1%),证明四个因素------持续时间、平均相关性、峰值相关性和方差------都为片段重要性估计提供了互补信息。相对较小的下降表明,尽管每个组件都是必要的,但整体框架对具体权重值具有鲁棒性。最值得注意的是,我们在所有四个 LVLM 骨干、三个基准和所有帧预算上均使用相同设置,而没有进行特定任务调参。MMR 参数 λ \lambda λ 表现出特别稳定的行为:当 λ ∈ [ 0.3 , 0.7 ] \lambda \in [0.3, 0.7] λ∈[0.3,0.7] 时,VideoMME 上的性能变化仅为 0.4%,并在 λ = 0.5 \lambda=0.5 λ=0.5 时取得最优平衡。这种鲁棒性源于小波分解能够内在地适应信号特性,而预算分配会自动随片段分布进行缩放,使得该方法能够使用默认超参数部署,而无需昂贵的网格搜索。

4.4 复杂度与时间分析
表 7 给出了 WFS-SB 计算效率的综合分析。对于 VideoMME 上的视频(平均 N = 1040 N=1040 N=1040 帧),时间分解显示 ITM 信号提取占主导,为 19.4 秒(总时间的 79%)------这代表了一个优化机会,因为 ITM 计算可以通过批处理、量化或 BLIP-2-ITM 模型蒸馏来加速。小波处理流程本身(DWT、边界检测、预算分配、MMR)仅增加 0.7 秒开销。关键在于,虽然相比朴素均匀采样,ITM 提取引入了计算成本,但这种开销完全可以由显著的性能增益所证明是合理的。

4.5 可视化分析
图 4 在一个包含不同但视觉上相似事件的日常活动视频上展示了 WFS-SB。我们基于小波的边界检测从带噪相似度信号中识别关键语义转变,将视频划分为连贯片段。随后的分层采样确保所选帧能够表示每个事件(上课、辅导、自习),同时保留时间叙事,忠实地重构事件序列,并突出我们方法在过程导向理解中的优势。

05 结论
本文提出了 WFS-SB,这是一个免训练框架,通过关注叙事结构来增强 LVLM 的长视频理解能力。我们的核心创新是使用小波变换可靠地检测语义边界,将视频划分为连贯片段。随后,两阶段选择策略根据片段重要性和片段内多样性分配帧。大量实验表明,WFS-SB 在多个基准上显著优于最先进方法,突显了捕捉视频叙事流程的重要性。进一步讨论和附加实验见附录。
附录
本补充材料提供了扩展的技术细节、附加实验以及深入分析,以补充正文内容。内容组织如下:
第 6 节------局限性与未来工作。 我们讨论 WFS-SB 的三个主要局限性,并概述扩展基于小波的帧选择的四个有前景的研究方向。
第 7 节------方法的进一步解释。 我们为时间相关性信号的三个特征提供可视化结果(第 7.1 节),并给出自适应峰值检测算法的详细数学公式(第 7.2 节)。
第 8 节------附加实验结果。 我们报告扩展实验分析,包括与更多基线方法的比较(第 8.1 节)、不同帧预算和模型下的性能(第 8.2 节)、帧采样率的消融研究(第 8.3 节)、扩展的 VLM 比较(第 8.4 节)、超参数敏感性分析(第 8.5 节)以及定性可视化(第 8.6 节)。
06 局限性与未来工作
6.1 局限性
尽管 WFS-SB 在多个基准和架构上取得了较强性能,但我们承认其存在三个主要局限性。
ITM 特征提取的计算开销。 主要瓶颈在于使用 BLIP-2 提取图文匹配(Image-Text Matching,ITM)得分。如正文表 7 所示,这约占预处理时间的 79%(19.4 秒)。尽管小波变换本身非常高效( O ( N log N ) O(N \log N) O(NlogN)),且边界检测接近常数时间运行,但计算密集的查询-帧相似度得分所需的前期成本,对于极长视频或实时应用而言可能过高。这一局限性也存在于其他视觉语言对齐方法中,并且在多小时视频中会更加明显。
依赖视觉语言特征质量。 我们的框架依赖预训练视觉语言模型所产生 ITM 得分的质量和校准程度。尽管表 3 展示了其在多个 VLM(BLIP-ITM、BLIP-2-ITM、CLIP、SigLIP)上的鲁棒性,但 WFS-SB 的性能仍受底层 VLM 语义理解能力的限制。由于域偏移、对抗扰动或分布外内容而产生的校准不佳得分,可能导致小波分析遗漏有意义的语义转变。这突显了为目标域选择合适 VLM 的重要性。
对极端时间结构的敏感性。 具有非常快速场景切换的视频(例如广告、蒙太奇)可能触发过多的边界检测,从而导致过分割。相反,包含长时间低相关性片段且被短暂高相关性时刻打断的视频,可能会导致片段过滤机制无意中丢弃重要的短片段。尽管我们的默认超参数( η = 1.2 \eta = 1.2 η=1.2)在多样化基准上表现良好,但对于极端情况,可能需要进行特定领域调参。
6.2 未来工作
基于已识别的局限性,我们提出四个有前景的研究方向,以扩展基于小波的帧选择。
高效 ITM 得分近似。 为了解决计算开销,未来工作可以探索:(1)基于蒸馏的近似方法,即训练一个较小模型从视觉特征中预测 ITM 得分;(2)自适应 FPS 采样,即对更长视频使用更低帧率,以在保持性能的同时减少预处理时间;(3)稀疏 ITM 计算,即初始仅对部分帧进行打分,并基于小波分析自适应地查询更多帧。这些策略可以显著减少预处理时间。
用于视频分解的可学习小波核。 尽管表 5 展示了该方法在不同小波族上的鲁棒性,但所有测试的小波都是人工设计的。一个有趣的方向是学习面向视频语义边界检测优化的数据驱动小波基,即在视频分割数据集上通过端到端训练,将小波滤波器参数化为可学习卷积核。这可能比通用小波更有效地捕获特定领域的时间模式。
多查询和开放式视频理解。 我们当前的公式假设每个视频对应单个查询。未来工作可以将 WFS-SB 扩展到多查询场景,通过联合分析所有查询的时间相关性信号,并选择一个最大化覆盖范围的统一帧集合。对于没有显式查询的开放式视频理解,该框架可以适配为基于帧间相似度或异常检测进行自监督语义变化检测来选择关键帧。
扩展到多模态信号。 尽管我们的重点是视觉-文本对齐,但许多视频包含丰富的音频和字幕信息。未来工作可以将基于小波的边界检测扩展到多模态时间信号,将音频能量、语音转录和视觉 ITM 得分融合为统一的相关性信号。这可以在仅依赖视觉线索存在歧义的场景中实现更鲁棒的边界检测,例如语义转变主要由语音提示的对话密集型场景。
07 方法的进一步解释
本节提供关于我们方法的附加技术细节。在第 7.1 节中,我们可视化第 3.2 节中识别出的时间相关性信号的三个关键特征:非平稳性、多尺度结构和低信噪比。在第 7.2 节中,我们给出自适应峰值检测过程的完整数学公式和算法伪代码。
7.1 信号特征的可视化
图 5 在来自 VideoMME 和 MLVU 的代表性示例上展示了 ITM 得分序列的三个基本属性。
非平稳性。 图 5a 可视化了使用 30 帧滑动窗口计算的局部统计量。变化的均值和方差使经典傅里叶分析假设失效,因为该假设要求频率内容随时间不变。高相关性片段表现出更高的均值和更大的方差,表明其具有丰富的语义内容,而不相关片段则表现为均值受到抑制且方差极小。这种非平稳行为需要时间局部化分析。
多尺度结构。 图 5b 将人工标注的语义片段叠加在 ITM 信号上。快速转变(例如,黑白转场)大约跨越 5 帧(约 5 秒),表现为尖锐而狭窄的峰值。相比之下,持续过程(例如,烹饪过程)延续超过 160 帧(约 2--3 分钟),表现为宽泛而持续的升高。尺度差异约达到 32 倍。这种巨大的时间尺度变化需要多分辨率分析,因为没有单一固定尺度滤波器能够同时有效捕获这两类语义边界。
低信噪比。 图 5c 展示了由 3 层 DWT 的细节系数 d 1 d_1 d1 和 d 2 d_2 d2 计算得到的噪声包络。可视化结果揭示了大量高频噪声,这些噪声来源于模型不确定性(相似帧得分不一致)、跨模态歧义(模糊的文本-图像对齐)和视觉伪影(光照、运动、遮挡)。噪声幅度(黄色包络)往往与潜在语义信号强度相当,使得朴素峰值检测或幅值阈值方法极不可靠。
7.2 峰值检测算法:详细公式
第 3.3.1 节简要描述了在变化强度信号 c t = ∣ s ~ t ∣ c_t = |\tilde{s}_t| ct=∣s~t∣ 中识别语义边界的峰值检测过程。这里我们提供完整的数学公式和算法伪代码。
该算法识别 c t c_t ct 中满足两个自适应准则的局部最大值:高度和显著性。这些准则确保检测到的峰值对应于真实语义边界,而不是噪声引起的波动。
变化强度信号。 给定小波重构的语义变化信号 s ~ t = I D W T ( { 0 , d J , 0 , ... , 0 } ) \tilde{s}_t = \mathrm{IDWT}(\{0, d_J, 0, \ldots, 0\}) s~t=IDWT({0,dJ,0,...,0})(公式 4),我们计算其绝对值以获得非负变化强度:
c t = ∣ s ~ t ∣ , t = 1 , ... , N . (9) c_t = |\tilde{s}_t|, \quad t = 1, \ldots, N. \tag{9} ct=∣s~t∣,t=1,...,N.(9)
c t c_t ct 中的峰值对应于语义转变最强的时刻。
自适应高度阈值。 为了过滤低幅值波动,我们要求峰值超过一个数据驱动阈值:
τ h e i g h t = c ˉ + α ⋅ σ c , (10) \tau_{\mathrm{height}} = \bar{c} + \alpha \cdot \sigma_c, \tag{10} τheight=cˉ+α⋅σc,(10)
其中, c ˉ \bar{c} cˉ 是平均变化强度, σ c \sigma_c σc 是标准差, α \alpha α 是高度因子(默认值: α = 0.5 \alpha = 0.5 α=0.5)。仅当索引 t t t 处的峰值满足 c t ≥ τ h e i g h t c_t \ge \tau_{\mathrm{height}} ct≥τheight 时才会被保留。
自适应显著性阈值。 显著性衡量一个峰值相对于周围谷值的突出程度。我们要求显著性超过一个与信号动态范围成比例的阈值:
τ p r o m = β ⋅ ( max t c t − min t c t ) , (11) \tau_{\mathrm{prom}} = \beta \cdot \left(\max_t c_t - \min_t c_t\right), \tag{11} τprom=β⋅(tmaxct−tminct),(11)
其中, β \beta β 是显著性因子(默认值: β = 0.05 \beta = 0.05 β=0.05)。这可以抑制宽泛、低对比度的隆起。
最小距离约束。 为了防止过分割,我们通过非极大值抑制在连续峰值之间强制执行最小时间间隔 δ min \delta_{\min} δmin。最小距离自适应设置为:
δ min = max ( 5 , ⌊ N × 0.02 ⌋ ) , (12) \delta_{\min} = \max \left(5, \left\lfloor N \times 0.02 \right\rfloor \right), \tag{12} δmin=max(5,⌊N×0.02⌋),(12)
从而确保短视频中至少间隔 5 帧,而长视频中则具有按比例增大的间隔。
算法 1 给出了峰值检测过程的完整流程描述。
算法 1 自适应峰值检测用于语义边界
输入: 变化强度信号 { c t } t = 1 N \{c_t\}_{t=1}^{N} {ct}t=1N,高度因子 α \alpha α,显著性因子 β \beta β
输出: 边界索引集合 B = { b 1 , ... , b M } B = \{b_1, \ldots, b_M\} B={b1,...,bM}
- 计算信号统计量:
- c ˉ ← 1 N ∑ t = 1 N c t \bar{c} \leftarrow \frac{1}{N}\sum_{t=1}^{N} c_t cˉ←N1∑t=1Nct ▷ 平均强度
- σ c ← 1 N ∑ t = 1 N ( c t − c ˉ ) 2 \sigma_c \leftarrow \sqrt{\frac{1}{N}\sum_{t=1}^{N}(c_t - \bar{c})^2} σc←N1∑t=1N(ct−cˉ)2 ▷ 标准差
- R c ← max t c t − min t c t R_c \leftarrow \max_t c_t - \min_t c_t Rc←maxtct−mintct ▷ 动态范围
- 计算自适应阈值:
- τ h e i g h t ← c ˉ + α ⋅ σ c \tau_{\mathrm{height}} \leftarrow \bar{c} + \alpha \cdot \sigma_c τheight←cˉ+α⋅σc
- τ p r o m ← β ⋅ R c \tau_{\mathrm{prom}} \leftarrow \beta \cdot R_c τprom←β⋅Rc
- δ min ← max ( 5 , ⌊ N × 0.02 ⌋ ) \delta_{\min} \leftarrow \max(5, \lfloor N \times 0.02 \rfloor) δmin←max(5,⌊N×0.02⌋)
- 初始化候选峰值集合: P c a n d ← ∅ P_{\mathrm{cand}} \leftarrow \emptyset Pcand←∅
- 对 t = 2 t = 2 t=2 到 N − 1 N - 1 N−1:
- 如果 c t > c t − 1 c_t > c_{t-1} ct>ct−1 且 c t > c t + 1 c_t > c_{t+1} ct>ct+1,则 ▷ 局部最大值
- 如果 c t ≥ τ h e i g h t c_t \ge \tau_{\mathrm{height}} ct≥τheight,则
- 计算索引 t t t 处峰值的显著性 p t p_t pt
- 如果 p t ≥ τ p r o m p_t \ge \tau_{\mathrm{prom}} pt≥τprom,则
- P c a n d ← P c a n d ∪ { t } P_{\mathrm{cand}} \leftarrow P_{\mathrm{cand}} \cup \{t\} Pcand←Pcand∪{t}
- 结束如果
- 结束如果
- 结束如果
- 结束循环
- 按显著性降序排列 P c a n d P_{\mathrm{cand}} Pcand
- 初始化最终边界集合: B ← ∅ B \leftarrow \emptyset B←∅
- 对每个峰值 t p ∈ P c a n d t_p \in P_{\mathrm{cand}} tp∈Pcand(按排序顺序):
- 如果 B = ∅ B = \emptyset B=∅ 或 min b ∈ B ∣ t p − b ∣ ≥ δ min \min_{b \in B} |t_p - b| \ge \delta_{\min} minb∈B∣tp−b∣≥δmin,则
- B ← B ∪ { t p } B \leftarrow B \cup \{t_p\} B←B∪{tp}
- 结束如果
- 结束循环
- 按升序排列 B B B
- 返回 B B B
超参数鲁棒性分析。 表 8 在 VideoMME 和 MLVU 上使用 Qwen2.5-VL-7B( K = 16 K=16 K=16)评估高度因子 α \alpha α 和显著性因子 β \beta β 的鲁棒性。
结果表明该方法具有较强鲁棒性:在不同超参数设置下,性能变化仅为 1.1% 或 1.2%。这种对 α \alpha α 和 β \beta β 的不敏感性表明,自适应阈值机制能够自然地适应信号特征,使该方法在多样化视频内容上可靠,而无需进行特定任务调参。
08 附加实验结果
本节给出扩展实验结果,以补充正文中的分析,包括与更多基线方法的比较、扩展的帧预算和模型消融、不同帧率下的性能、超参数敏感性研究以及定性可视化。
8.1 与更多基线方法的比较
表 9 扩展了正文比较(表 1),在 Qwen2-VL-7B 上评估了更多近期方法。
8.2 扩展的帧预算和模型消融
图 6 和图 7 将图 3 中的帧预算分析扩展到 MLVU 和 LongVideoBench。WFS-SB 在所有模型和预算下均稳定优于均匀采样,并且在较小预算( K = 8 , 16 K=8, 16 K=8,16)下取得尤为显著的增益。
8.3 不同帧率下的性能
我们的默认流程以 1 FPS 采样候选帧。为了解决 ITM 提取瓶颈(预处理时间的 79%,表 7),我们评估了一种自适应 FPS 策略,该策略对 VideoMME 中不同时长的视频使用不同采样率。表 10 报告了在 VideoMME 上使用 Qwen2.5-VL-7B 的结果。
结果表明,自适应 FPS 策略显著降低了计算开销。通过对中等长度和长视频使用较低采样率(例如,对于短-中-长视频使用 1-0.5-0.25 fps),ITM 提取时间从 19.4 秒降至 5.8 秒(减少 70%),同时保持了相当甚至略有提升的性能。这验证了对更长视频降低 FPS 是一种实用方法,可以在不牺牲准确率的情况下缓解预处理时间瓶颈。
8.4 用于查询-帧匹配的扩展 VLM 比较
表 11 将表 3 中的 VLM 比较扩展到 LLaVA-Video-7B,并在三个基准上使用 K = 16 K=16 K=16 进行评估。
结果表明,WFS-SB 对 VLM 选择具有鲁棒性,所有测试模型都相较于均匀采样带来了显著提升。尽管 BLIP-ITM 在表 3 的设置下表现更好,但我们选择 BLIP-2-ITM 作为默认设置,因为它在多样化设置下提供了更一致的平均收益。具体而言,BLIP-2-ITM 取得了最佳性能,在 VideoMME、MLVU 和 LongVideoBench 上的准确率分别为 64.3%、71.0% 和 62.4%,展示了其更优的跨基准泛化能力。这反映了 BLIP-2-ITM 得益于其增强的图文对齐目标而具有更好的校准能力。
8.5 超参数消融:片段过滤
第 3.3.2 节引入了由阈值 τ = m e a n ( I m p ) − η ⋅ s t d ( I m p ) \tau = \mathrm{mean}(\mathrm{Imp}) - \eta \cdot \mathrm{std}(\mathrm{Imp}) τ=mean(Imp)−η⋅std(Imp) 控制的片段过滤机制,其中 η \eta η 控制过滤强度。表 12 分析了 η \eta η 对性能的影响。
结果表明其具有两个关键性质。鲁棒性: 在不同 η \eta η 值下,性能变化仅为 0.2--0.6%,表明该方法对该超参数不敏感。有效性: 将不过滤基线("-")与过滤配置进行比较,可以发现片段过滤稳定提升性能 0.4--0.9%,因为它将帧预算集中在高相关性片段上,同时丢弃低重要性区域。默认值 η = 1.2 \eta = 1.2 η=1.2 提供了可靠平衡。
8.6 附加定性示例
图 8 在来自 VideoMME 的一个视频上提供了不同帧选择策略的定性比较。
该示例展示了 WFS-SB 方法的优势。均匀采样由于其随机、查询无关的性质而失败,遗漏了关键内容。Top-K 采样表现出对视觉显著物体(例如突出的象雕像)的偏置,忽略了回答问题所需的其他同等重要但不那么显眼的元素。相比之下,WFS-SB 利用基于小波的语义边界检测将视频划分为连贯片段,随后在片段内应用自适应预算分配和多样性感知选择,以全面覆盖所有相关内容,从而实现准确问答。
