文章目录
- 摘要
- Abstract
- [一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》](#一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》)
-
- [1. 摘要](#1. 摘要)
- [2. 引言](#2. 引言)
- [3. 方法分类与核心机制](#3. 方法分类与核心机制)
-
- [3.1 按模态分类](#3.1 按模态分类)
- [3.2 四种核心机制对比](#3.2 四种核心机制对比)
- [4. 实验与评估](#4. 实验与评估)
-
- [4.1 图像任务评估](#4.1 图像任务评估)
- [4.2 视频任务评估](#4.2 视频任务评估)
- [4.3 评估挑战](#4.3 评估挑战)
- [5. 讨论与未来方向](#5. 讨论与未来方向)
-
- [5.1 与其他压缩方法的正交性](#5.1 与其他压缩方法的正交性)
- [5.2 压缩的更深层价值](#5.2 压缩的更深层价值)
- [5.3 方法组合的局限](#5.3 方法组合的局限)
- [5.4 当前挑战](#5.4 当前挑战)
- [5.5 未来方向](#5.5 未来方向)
- [6. 应用场景](#6. 应用场景)
- 总结
摘要
本周主要阅读论文《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》,这篇综述系统梳理了多模态大语言模型中的长上下文令牌压缩技术。针对图像、视频、音频三种模态,文章分析了各自特有的冗余特征(空间、时空、时频),并按照变换、相似性、注意力、查询四种机制对现有方法进行分类。
Abstract
This week, I mainly read the survey paper When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios. It systematically sorts out long-context token compression technologies for multimodal large language models. Targeting image, video and audio modalities, it analyzes their unique redundant features including spatial, spatiotemporal and time-frequency characteristics, and classifies existing methods into four categories based on transformation, similarity, attention and query mechanisms.
一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》
1. 摘要
多模态大语言模型(MLLMs)在处理长上下文(如高分辨率图像、长视频序列、长时间音频)方面展现出卓越能力,但自注意力机制的二次复杂度带来了巨大的计算和内存开销。令牌压缩(Token Compression) 成为缓解这一瓶颈的关键技术。
本文是首个系统性综述,聚焦于多模态长上下文下的令牌压缩方法。主要特点包括:
- 按模态分类:图像、视频、音频,因为不同模态的冗余特性不同(空间、时空、时频)。
- 按机制分类:基于变换、基于相似性、基于注意力、基于查询。
2. 引言
1,问题提出
MLLMs 处理长上下文时,视觉、音频数据产生的令牌数量远超文本。
2,冗余特征
图像:空间局部相似性(相邻像素/纹理)。
视频:时空连续性(连续帧高度重叠)。
音频:时间与频带稀疏性(静音段、稳态噪声)。
3,现有工作局限
(1)多数方法只针对单一或两种模态。
(2)缺乏系统性分类与跨模态比较。
(3)与文本LLM压缩(如prompt compression)存在本质差异。
4,主要贡献
(1)首次系统性综述:专门面向MLLMs的令牌压缩技术,填补该领域空白。
(2)双维度分类法:
-
模态维度:图像、视频、音频。
-
机制维度:变换、相似性、注意力、查询。
(3)结构化对比:总结各方法的优缺点、压缩率、性能权衡。
(4)识别关键挑战:性能退化、任务特定问题(OCR、时序感知)、部署障碍、评估体系不足。
3. 方法分类与核心机制
3.1 按模态分类
图像中心压缩
| 机制 | 代表方法 | 核心操作 |
|---|---|---|
| 变换 | Pixel Unshuffle, Pooling, Convolution | 下采样、维度重排 |
| 相似性 | ToMe, FOLDER, DivPrune | 聚类、合并相似令牌 |
| 注意力 | FastV, VisionZip, PrunerMerge | 基于[CLS]或解码器注意力分数剪枝 |
| 查询 | Q-Former, VoCo-LLaMA, Victor | 可学习查询令牌蒸馏 |
视频中心压缩
| 机制 | 代表方法 | 核心操作 |
|---|---|---|
| 变换 | 2D/3D Pooling, 3D Convolution | 时空下采样 |
| 相似性 | Chat-UniVi, FastVID, PruneVid | 帧聚类 + 令牌合并 |
| 注意力 | FastV, DyCoke | 窗口注意力、时序剪枝 |
| 查询 | Token Turing Machine, BLIP-3-Video | 外部记忆令牌、时序编码器 |
音频中心压缩
| 机制 | 代表方法 | 核心操作 |
|---|---|---|
| 变换 | Token Stacking, Pooling, 1D Conv | 时域下采样 |
| 相似性 | A-ToMe | 高余弦相似度合并 |
| 注意力 | Top-K, SpeechPrune | 编码器/解码器注意力剪枝 |
| 查询 | Audio Q-Former, SpeechPrune | 学习查询 + 跨模态相似性 |
3.2 四种核心机制对比
| 机制 | 优点 | 缺点 |
|---|---|---|
| 变换 | 保留结构信息,无参或轻量 | 压缩率不灵活 |
| 相似性 | 灵活,可合并相似内容 | 可能丢失细粒度信息 |
| 注意力 | 动态相关性强,可解释性好 | 与加速库不兼容 |
| 查询 | 任务导向,信息密集 | 多轮对话支持差 |
4. 实验与评估
4.1 图像任务评估
- 基准:GQA, MMB, MME, POPE, VQA2, MM-Vet 等。
- 方法:FastV, VisionZip, DyCoke, LLaVA-Scissor 等。
- 压缩率:保留10%~50%视觉令牌。
- 关键发现 :
- LLaVA-OV7B 在保留10%令牌时仍可保持近无损性能。
- 更大模型(如72B)对压缩更敏感。
4.2 视频任务评估
- 基准:ActivityNet, Video-ChatGPT, Next-QA, EgoSchema, VideoMME 等。
- 指标:准确率、GPT评分、时间理解、一致性等。
- 保留比率:50% / 25%~35% / 5%~15%。
- 关键发现 :
- FastV, DyCoke, PLLaVA 在50%压缩时性能下降微小。
- 10%~15%压缩率下,HoliTom, PruneVid, VisionZip 仍保持较好性能。
- 时空联合压缩优于纯空间或纯时间压缩。
4.3 评估挑战
- 指标不完善:仅用压缩令牌数、FLOPs 无法反映真实推理加速。
- 实际延迟指标缺失:建议引入 TTFT(首令牌时间)、每令牌解码延迟。
- 基准粒度不足:现有基准无法隔离令牌压缩的真实贡献,需类似 EffiVLM-Bench 的专用测试。
5. 讨论与未来方向
5.1 与其他压缩方法的正交性
- 模型压缩(量化、剪枝、蒸馏、低秩分解)→ 减少模型维度 (D)。
- 令牌压缩 → 减少序列长度 (N)。
- 两者可协同(如 NVILLA, CoreMatching)。
5.2 压缩的更深层价值
- 提升模态对齐质量(如 Q-Former)。
- 减少三类冗余:特征冗余、任务无关冗余、注意力计算冗余。
- 实现单次长上下文理解(如整本书、长视频)。
5.3 方法组合的局限
- 直接组合不同压缩方法效果不佳(MoB 论文发现 (1+1 < 1) 现象)。
- 原因:压缩指标不一致,剪枝决策冲突。
5.4 当前挑战
| 类别 | 具体问题 |
|---|---|
| 性能退化 | 强模型对压缩更敏感,近无损压缩困难 |
| 任务敏感 | OCR、时序任务(运动、节奏)易受影响 |
| 部署障碍 | 与 FlashAttention 等加速库不兼容;多轮对话支持差 |
| 评估体系 | 指标不足、基准不匹配、真实延迟未测 |
5.5 未来方向
- 统一多模态令牌压缩框架:利用跨模态相关性。
- 架构原生压缩:从设计阶段就融入冗余抽象(如视频LLM的固有低冗余设计)。
- 更细粒度评估体系:面向训练-free加速的专用基准。
6. 应用场景
| 领域 | 应用方式 | 代表工作 |
|---|---|---|
| GUI 代理 | 动态剪枝冗余视觉元素 | ShowUI |
| 医疗影像 | 病理感知局部无损压缩 | PET-MRI 分析 |
| 自动驾驶/机器人 | 稀疏时空动态建模 | VTS, StreamVLN |
| 高效推理 | 压缩推理链(长思维链) | 注意力/语义重要性压缩 |
总结
本周阅读论文是首个多模态长上下文令牌压缩的系统性综述,从模态 和机制两个维度对现有方法进行了全面分类与比较。文章不仅总结了技术进步与挑战,还提出了未来研究方向,包括统一框架、架构优化和更完善的评估体系。该工作为MLLMs的高效长上下文处理提供了基础性参考。