PVC论文阅读 - 技术栈

2025

1.摘要

background

大规模视觉语言模型（VLMs）已扩展到理解图像和视频。视觉 token 压缩被用于减少视觉输入 token 的长度。现有高性能模型通常针对图像和视频采用不同的 token 压缩策略，导致不一致性，限制了它们结合图像和视频的能力。

innovation

为了解决上述问题，本论文将每张图像扩展为"静态"视频，并引入了一种统一的、名为"渐进式视觉 token 压缩"（PVC）的 token 压缩策略。PVC 渐进式编码每一帧的 token，并自适应压缩以补充前一帧未提取的信息。该策略高效压缩视频 token，同时保留图像空间细节。

方法 Method

本论文提出的 PVC 架构包括一个带有渐进式编码的 Vision Transformer (ViT)、一个自适应 token 压缩模块和一个大型语言模型 (LLM)。

标准化 VLM 输入为视频：

输入： 图像 x 或原生视频。

处理： 将每张图像 x 重复 T_img 次（默认为 4 次），形成静态帧序列 [x, x, ..., x]。对于原生视频，统一采样 T 帧（训练期间 T 从 [16, 96] 中随机选择）。

输出： 统一的视频格式输入，使 LLM 能够多次回顾图像，捕捉更丰富的空间信息。

带有渐进式编码的 Vision Transformer (ViT)：

目的： 避免视频帧冗余编码，使当前帧仅编码前一帧未提取的新信息。

组成： 在 ViT 层中引入了一个因果时间注意力模块（Temporal Multi-Head Attention, T-MHA）和一个注入时间步信息的自适应层归一化（Adaptive Layer Normalization, AdaLN）。

T-MHA： 应用于 ViT 最后 L 层的时间维度，使每个 patch token 关注同一空间位置的先前帧 token。它有助于捕捉时间相关性。

Temporal Embedding (TE)： 将相对时间戳编码为 256 维正弦位置嵌入，并通过 MLP 生成时间嵌入，用于 AdaLN。

AdaLN： 用于调整归一化参数，使模型适应不同任务需求。在静态视频中，AdaLN 帮助在不同时间步提取不同的空间信息，避免冗余编码。

ViT 层定义： x := x + S-MHA(LayerNorm(x)) (空间多头注意力)；x := x + α T-MHA(AdaLN(x; x + TE)) (时间多头注意力，其中 α 是可学习门)；x := x + FFN(LayerNorm(x)) (前馈网络)。

自适应压缩模块：

目的： 减少视觉 token 的数量，同时避免不同帧之间的表示冗余。

组成： 基于 PixelShuffle [46] 操作（将相邻 2x2 区域的 4 个 token 沿通道维度连接成单个 token，实现 16 倍压缩）和一个共享 MLP。

创新点： 在共享 MLP 之前集成了 AdaLN 层，允许网络在不同时间步提取不同的时空信息，避免冗余表示。

输入： ViT 输出的视频 token x，维度为 [B, T, N, C']。

输出： 压缩后的 token v，每帧的 token 数量从 N 减少到 M (默认 M = N/16)。

实验 Experimental Results

实验数据集：

图像-语言基准： AI2D, ChartQA, DocVQA, InfoVQA, SQA, TextVQA, MMB, MME, MMMU, SEED-I, OCRBench。

视频-语言基准： MVBench, VideoMME, MLVU, LongVideoBench, NextQA, Egoschema, PercepTest, ActNet-QA。

实验结论：

与 SOTA 方法对比： PVC 在长视频任务（如 VideoMME, MLVU）和细粒度短视频任务（如 MVBench）上表现出色，同时在图像任务上保持竞争力。例如，PVCInternVL2-8B 在 MVBench 上达到 73.8，超过了现有开源模型 69.1 的最佳准确率。在 NextQA 和 ActNet-QA 上也取得了最佳结果。

消融研究（AdaLN 条件）：

使用 AdaLN 能够显著提升性能，尤其是在保留空间细节的任务（如 InfoVQA）和捕捉时间关联的任务（如 VideoMME）上。

仅使用时间嵌入 (TE) 作为条件已显著提升性能，而结合 x (即前一层聚合的时间信息) 进一步提升性能，有助于更好地提取互补信息并最小化冗余。

消融研究（关键组件）：

标准化视频输入： 直接将图像标准化为视频（设置 (b)）会损害 OCR 相关图像任务的性能，因为重复的视觉 token 编码了重复信息，导致空间细节丢失。但对长视频任务有益。

渐进式编码： 引入时间注意力（设置 (c)）缓解了信息损失，在需要空间细节的任务上保持了与基线模型相当的性能，并显著提升了长视频任务的性能。

自适应压缩： 添加自适应压缩模块（PVC）进一步提升了所有任务的性能，尤其在长视频任务上，证明了其更好地利用了视频帧内的表示冗余。

渐进式压缩的有效性：

在 MVBench 和 VideoMME 上，增加视频帧数会持续提升 PVC 模型的性能，表明它能更好地去除时间冗余和捕捉时间动态。

在图像任务上，增加图像重复次数对基线模型没有帮助，但对 PVC 模型（尤其是在 InfoVQA 等细节敏感任务上）显著提升了性能，因为重复的帧通过渐进式编码补充了详细信息。

图像重复和渐进式编码的速度： 对于 8B 模型，重复图像只会引入微小的开销（+6.0% FLOPs 相对，-6.3% FPS 相对），因为视觉特征计算可以部分重用，且主要计算负载在 LLM 中。

总结 Conclusion

PVC 提供了一种统一的图像和视频处理方法，通过将视觉输入标准化为视频，结合渐进式编码模块和自适应压缩模块，能够有效捕捉空间细节和时间动态。它在细粒度短视频和长视频任务中实现了最先进的性能，同时在细节敏感的图像基准测试中保持了准确性。