【第四十五周】论文阅读

文章目录

摘要
Abstract
[一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》](#一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》)
- [1. 摘要](#1. 摘要)
- [2. 引言](#2. 引言)
- [3. 方法分类与核心机制](#3. 方法分类与核心机制)
- - [3.1 按模态分类](#3.1 按模态分类)
  - [3.2 四种核心机制对比](#3.2 四种核心机制对比)
- [4. 实验与评估](#4. 实验与评估)
- - [4.1 图像任务评估](#4.1 图像任务评估)
  - [4.2 视频任务评估](#4.2 视频任务评估)
  - [4.3 评估挑战](#4.3 评估挑战)
- [5. 讨论与未来方向](#5. 讨论与未来方向)
- - [5.1 与其他压缩方法的正交性](#5.1 与其他压缩方法的正交性)
  - [5.2 压缩的更深层价值](#5.2 压缩的更深层价值)
  - [5.3 方法组合的局限](#5.3 方法组合的局限)
  - [5.4 当前挑战](#5.4 当前挑战)
  - [5.5 未来方向](#5.5 未来方向)
- [6. 应用场景](#6. 应用场景)
总结

摘要

本周主要阅读论文《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》，这篇综述系统梳理了多模态大语言模型中的长上下文令牌压缩技术。针对图像、视频、音频三种模态，文章分析了各自特有的冗余特征（空间、时空、时频），并按照变换、相似性、注意力、查询四种机制对现有方法进行分类。

Abstract

This week, I mainly read the survey paper When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios. It systematically sorts out long-context token compression technologies for multimodal large language models. Targeting image, video and audio modalities, it analyzes their unique redundant features including spatial, spatiotemporal and time-frequency characteristics, and classifies existing methods into four categories based on transformation, similarity, attention and query mechanisms.

一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》

1. 摘要

多模态大语言模型（MLLMs）在处理长上下文（如高分辨率图像、长视频序列、长时间音频）方面展现出卓越能力，但自注意力机制的二次复杂度带来了巨大的计算和内存开销。令牌压缩（Token Compression）成为缓解这一瓶颈的关键技术。

本文是首个系统性综述，聚焦于多模态长上下文下的令牌压缩方法。主要特点包括：

按模态分类：图像、视频、音频，因为不同模态的冗余特性不同（空间、时空、时频）。
按机制分类：基于变换、基于相似性、基于注意力、基于查询。

2. 引言

1，问题提出

MLLMs 处理长上下文时，视觉、音频数据产生的令牌数量远超文本。

2，冗余特征

图像：空间局部相似性（相邻像素/纹理）。

视频：时空连续性（连续帧高度重叠）。

音频：时间与频带稀疏性（静音段、稳态噪声）。

3，现有工作局限

（1）多数方法只针对单一或两种模态。

（2）缺乏系统性分类与跨模态比较。

（3）与文本LLM压缩（如prompt compression）存在本质差异。

4，主要贡献

（1）首次系统性综述：专门面向MLLMs的令牌压缩技术，填补该领域空白。

（2）双维度分类法：

模态维度：图像、视频、音频。
机制维度：变换、相似性、注意力、查询。

（3）结构化对比：总结各方法的优缺点、压缩率、性能权衡。

（4）识别关键挑战：性能退化、任务特定问题（OCR、时序感知）、部署障碍、评估体系不足。

3. 方法分类与核心机制

3.1 按模态分类

图像中心压缩

机制	代表方法	核心操作
变换	Pixel Unshuffle, Pooling, Convolution	下采样、维度重排
相似性	ToMe, FOLDER, DivPrune	聚类、合并相似令牌
注意力	FastV, VisionZip, PrunerMerge	基于 $CLS$ 或解码器注意力分数剪枝
查询	Q-Former, VoCo-LLaMA, Victor	可学习查询令牌蒸馏

视频中心压缩

机制	代表方法	核心操作
变换	2D/3D Pooling, 3D Convolution	时空下采样
相似性	Chat-UniVi, FastVID, PruneVid	帧聚类 + 令牌合并
注意力	FastV, DyCoke	窗口注意力、时序剪枝
查询	Token Turing Machine, BLIP-3-Video	外部记忆令牌、时序编码器

音频中心压缩

机制	代表方法	核心操作
变换	Token Stacking, Pooling, 1D Conv	时域下采样
相似性	A-ToMe	高余弦相似度合并
注意力	Top-K, SpeechPrune	编码器/解码器注意力剪枝
查询	Audio Q-Former, SpeechPrune	学习查询 + 跨模态相似性

3.2 四种核心机制对比

机制	优点	缺点
变换	保留结构信息，无参或轻量	压缩率不灵活
相似性	灵活，可合并相似内容	可能丢失细粒度信息
注意力	动态相关性强，可解释性好	与加速库不兼容
查询	任务导向，信息密集	多轮对话支持差

4. 实验与评估

4.1 图像任务评估

基准：GQA, MMB, MME, POPE, VQA2, MM-Vet 等。
方法：FastV, VisionZip, DyCoke, LLaVA-Scissor 等。
压缩率：保留10%～50%视觉令牌。
关键发现 ：
- LLaVA-OV7B 在保留10%令牌时仍可保持近无损性能。
- 更大模型（如72B）对压缩更敏感。

4.2 视频任务评估

基准：ActivityNet, Video-ChatGPT, Next-QA, EgoSchema, VideoMME 等。
指标：准确率、GPT评分、时间理解、一致性等。
保留比率：50% / 25%～35% / 5%～15%。
关键发现 ：
- FastV, DyCoke, PLLaVA 在50%压缩时性能下降微小。
- 10%～15%压缩率下，HoliTom, PruneVid, VisionZip 仍保持较好性能。
- 时空联合压缩优于纯空间或纯时间压缩。

4.3 评估挑战

指标不完善：仅用压缩令牌数、FLOPs 无法反映真实推理加速。
实际延迟指标缺失：建议引入 TTFT（首令牌时间）、每令牌解码延迟。
基准粒度不足：现有基准无法隔离令牌压缩的真实贡献，需类似 EffiVLM-Bench 的专用测试。

5. 讨论与未来方向

5.1 与其他压缩方法的正交性

模型压缩（量化、剪枝、蒸馏、低秩分解）→ 减少模型维度 (D)。
令牌压缩 → 减少序列长度 (N)。
两者可协同（如 NVILLA, CoreMatching）。

5.2 压缩的更深层价值

提升模态对齐质量（如 Q-Former）。
减少三类冗余：特征冗余、任务无关冗余、注意力计算冗余。
实现单次长上下文理解（如整本书、长视频）。

5.3 方法组合的局限

直接组合不同压缩方法效果不佳（MoB 论文发现 (1+1 < 1) 现象）。
原因：压缩指标不一致，剪枝决策冲突。

5.4 当前挑战

类别	具体问题
性能退化	强模型对压缩更敏感，近无损压缩困难
任务敏感	OCR、时序任务（运动、节奏）易受影响
部署障碍	与 FlashAttention 等加速库不兼容；多轮对话支持差
评估体系	指标不足、基准不匹配、真实延迟未测

5.5 未来方向

统一多模态令牌压缩框架：利用跨模态相关性。
架构原生压缩：从设计阶段就融入冗余抽象（如视频LLM的固有低冗余设计）。
更细粒度评估体系：面向训练-free加速的专用基准。

6. 应用场景

领域	应用方式	代表工作
GUI 代理	动态剪枝冗余视觉元素	ShowUI
医疗影像	病理感知局部无损压缩	PET-MRI 分析
自动驾驶/机器人	稀疏时空动态建模	VTS, StreamVLN
高效推理	压缩推理链（长思维链）	注意力/语义重要性压缩

总结

本周阅读论文是首个多模态长上下文令牌压缩的系统性综述，从模态和机制两个维度对现有方法进行了全面分类与比较。文章不仅总结了技术进步与挑战，还提出了未来研究方向，包括统一框架、架构优化和更完善的评估体系。该工作为MLLMs的高效长上下文处理提供了基础性参考。