Abstract
多模态大语言模型(MLLMs)取得了显著进展,这主要得益于它们处理日益增长且复杂的上下文能力,例如高分辨率图像、延展的视频序列以及冗长的音频输入 。虽然这种能力显著增强了 MLLM 的功能,但也带来了巨大的计算挑战,这主要是由于自注意力机制在面对大量输入令牌时具有平方级复杂度 。为了缓解这些瓶颈,令牌压缩已成为一种极具前景且关键的方法,能够有效地减少训练和推理过程中的令牌数量 。在本文中,我们首次对多模态长上下文令牌压缩这一新兴领域进行了系统的调查与综述 。考虑到有效的压缩策略与每种模态的独特特征及冗余性深度绑定,我们根据主要的数据关注点对现有方法进行了分类,使研究人员能够快速获取并学习针对其特定兴趣领域的定制方法:(1) 以图像为中心的压缩 ,解决视觉数据中的空间冗余 ;(2) 以视频为中心的压缩 ,处理动态序列中的时空冗余 ;以及 (3) 以音频为中心的压缩 ,处理声学信号中的时间与频谱冗余 。除了这种由模态驱动的分类外,我们还基于其底层机制进一步剖析了相关方法,包括基于变换的 、基于相似性的 、基于注意力的 和基于查询的方法 。通过提供全面且结构化的概述,本综述旨在巩固当前的进展,识别关键挑战,并激励这一快速发展领域未来的研究方向 。
1 Introduction
多模态大语言模型(MLLMs)(Liu 等,2023;Li 等,2025a;Xu 等,2024a;Bai 等,2023;Xu 等,2025b;Lin 等,2024a;Zhang 等,2023a;Li 等,2024a;2023d;Cheng 等,2024c;Zhang 等,2025a;Song 等,2024b)通过扩展大语言模型(LLMs)的架构(Chiang 等,2023;Team,2024;AI@Meta,2024;Abdin 等,2024),在包括视觉问答(VQA)、自动语音识别(ASR)和多模态内容生成等复杂任务上展现出了卓越的性能。这些强大的模型之所以具备如此优势,是因为它们利用 Transformer 架构处理了冗长且多样化的上下文,例如高分辨率图像、超长视频序列以及长音频输入。
然而,实现这一能力面临着一个重大挑战:自注意力机制的平方级复杂度。随着令牌(token)数量的增加,这种复杂度会导致巨大的计算和内存需求。这个问题在 MLLM 中尤为突出,因为视觉和音频数据的标记化(tokenization)所产生的序列长度可能比文本长几个数量级(Shao 等,2025;Tao 等,2025a;Yang 等,2025c;Song 等,2025c)。

例如,如图 1 所示,图像令牌的数量与分辨率成正比,而音频令牌的数量与持续时间成正比,视频令牌则随分辨率和持续时间共同缩放。一个内容丰富的单一视频可能会产生数千万个令牌,这极大地加剧了计算的低效性,并导致严重的推理延迟(90分钟的视频将被转换为 5400 万个令牌)。因此,解决这一计算瓶颈对于在实际应用中释放 MLLM 的全部潜力至关重要。
为了应对长上下文带来的挑战,令牌压缩已成为提高 MLLM 推理效率和实际部署的关键研究重点。这种方法非常有效,因为像视觉 Transformer(ViT)处理的那些多模态输入包含大量的冗余(Rao 等,2021;Liang 等,2022;Bolya 等,2022;Ryoo 等,2021;Touvron 等,2021;Vaswani 等,2017;Yang 等,2025d)。例如,广泛的研究表明,在典型的 MLLM 序列中,超过 50% 的令牌在推理过程中几乎受不到关注(Chen 等,2024a;Huang 等,2025c;Tao 等,2025a;Shao 等,2025;Alvar 等,2025;Shang 等,2025)。尽管一些先进技术将压缩直接集成到模型的架构或训练框架中(Chen 等,2024c;Dai 等,2024;Wang 等,2024c;Bai 等,2025;Li 等,2025a;Zhang 等,2024d;Cai 等,2024a;Yao 等,2024;Cha 等,2024;Chu 等,2023;2024a;Li 等,2024d),但令牌压缩的一个主要优势是它可以作为一种后优化技术应用,而无需昂贵的重新训练。这些方法通常首先建立一个专门的指标来评估令牌的重要性,然后执行相应的修剪或压缩。通过显著加速推理并减少内存消耗,这些技术使得 MLLM 在现实世界应用中的实际部署成为可能(Lin 等,2025a;Chu 等,2023;2024a;Wei 等,2025;Ma 等,2024b)。
近期广泛的研究表明,令牌压缩极大地提高了推理效率,推动了各种压缩策略和复杂方法的不断发展(Shen 等,2025a;Chai 等,2025;Alvar 等,2025;Huang 等,2025c;Yang 等,2025c;Shang 等,2025;Zhang 等,2025b;Cao 等,2023;Yang 等,2025a;Chen 等,2024a;Tao 等,2025c;Zhang 等,2024c;Liu 等,2024c;Yang 等,2025d;Ma 等,2025b)。然而,多模态数据固有的异构性意味着不同模态的冗余性存在差异。与文本提示(其冗余主要在于句法或语义)不同,视觉和听觉数据表现出独特的结构属性。例如,高分辨率图像包含很强的局部相关性,而视频流在帧与帧之间具有广泛的时空冗余,音频信号通常包含较长的静音段或平稳噪声。因此,大多数现有方法侧重于压缩一种或两种特定模态。
在压缩文本 LLM 的令牌方面已经取得了重大进展。例如,(Li 等,2025d)已经深入探讨了文本 LLM 的提示词压缩,突出了该领域的进展。在 MLLM 中,立场论文(Kong 等,2025)已经开始拓宽我们的理解,强调令牌压缩带来的好处不仅仅是效率。此外,一些研究人员认为,高效 AI 的研究重点正从以模型为中心的压缩转向以数据为中心的压缩(Liu 等,2025d)。然而,目前还没有专门针对 MLLM 的令牌压缩方法进行系统分类,这为该领域的全面综述留下了空间。
出于对 MLLM 效率的迫切需求以及解决当前研究碎片化问题的愿望,本文首次对长上下文令牌压缩技术进行了全面、结构化的综述。我们根据现有的主要模态焦点对现有方法进行了系统分类:
-
以图像为中心的令牌压缩解决固有的空间冗余,利用了相邻补丁通常代表相似纹理或颜色的事实;
-
以视频为中心的令牌压缩针对时空冗余,减轻了显著的帧间相关性,即连续帧通常共享广泛的背景元素和有限的运动;
-
以音频为中心的令牌压缩减轻了时间与频谱冗余,因为显著信息通常集中在稀疏、短暂的片段和特定频段内,而周围是静音停顿或背景噪声。
重要的是,在承认模态特性对冗余模式和最佳压缩策略有影响的同时,我们观察到基本的算法原理经常超越单一模态。有效的压缩从根本上围绕三个核心计算目标:重要性识别、冗余量化和令牌合并或修剪。尽管存在不同的结构限制,这些目标在视觉、时间和听觉领域中的表现是相似的。因此,我们进一步根据其底层机制对方法进行了分类:基于变换、基于相似性、基于注意力和基于查询的方法。
这项工作首次提出了 MLLM 令牌压缩技术的结构化综述,这是应对其固有计算复杂性的关键一步。通过巩固当前进展,本综述指出了关键挑战,并阐明了有希望的未来研究方向,为研究人员和开发人员提供了基础资源。
本文其余部分的组织如下:我们将首先在背景部分(第 2.1 节)讨论 MLLM 的架构,然后探讨令牌压缩是如何在先前大语言模型(LLMs,第 2.2 节)和视觉 Transformer(ViTs,第 2.3 节)的方法中使用的。随后的部分将致力于特定模态的令牌压缩方法:第 3 节针对图像 LLMs,第 4 节针对视频 LLMs,第 5 节针对音频 LLMs。在此之后,第 6 节将提供关于令牌压缩研究的见解。最后,第 7 节将介绍令牌压缩的广泛应用空间,接着是第 8 节的总结。
2 Background
2.1 Multimodal Architecture



2.2 Large Language Model Token Compression
现代 MLLM 的骨干网络通常基于强大的纯文本 LLM 构建并进行微调 。作为基础组件,对为文本 LLM 开发的令牌压缩技术的深入理解至关重要,因为它们提供了一种准确且轻量级的解决方案,用于处理现实世界中的长上下文场景,例如理解一整本书或一个代码库 。在大语言模型领域,这些方法通常被称为"提示词压缩 (prompt compression)"(Li 等,2025d)。
AutoCompressor(Chevalier 等,2023)将上下文浓缩为作为软提示(soft prompts)的摘要向量 。Extensible Tokenization(Shao 等,2024)利用中间模块来压缩嵌入,而 SentenceVAE(An 等,2024)用单个令牌表示整个句子 。Selective Context(Li 等,2023g)利用自信息指标(self-information metrics)来消除低信息量令牌 。LLMLingua(Jiang 等,2023a;b; Pan 等,2024)系列利用层次化令牌修剪与指令微调,并进一步引入了 LongLLMLingua(Jiang 等,2023b),通过语义密度排名来减轻位置衰减(position decay)问题 。
同时,像 QUITO(Wang 等,2024e)和 QUITO-X(Wang 等,2024f)等查询引导方法利用注意力分数或信息瓶颈理论进行基于相关性的过滤 。AdaComp(Zhang 等,2024a)实现了受查询复杂性预测器控制的自适应提取 。Concept Distillation(Shi 等,2024)采用抽象语义表示(AMR)图来提炼关键概念,而 xRAG(Cheng 等,2024b)将文档折叠为单令牌表示 。ICAE(Ge 等,2023)将上下文编码进离散的内存槽(memory slots)中 。包括 RCC(Huang 等,2024)和 XL3M(Wang 等,2024d)在内的递归框架通过相关特征融合生成分段摘要 。SoftPromptComp(Wang 等,2024a)将自然语言提示与动态嵌入相融合,而 PromptIntern(Zou 等,2024)则通过阶段性训练将任务指令内化到模型参数中 。
为了提高推理效率,KV 缓存压缩(KV cache compression)技术通过修剪冗余的内存状态来加速生成过程 。H2O(Zhang 等,2023b)和 StreamingLLM(Xiao 等,2024)利用重击者策略(heavy-hitter policies)和注意力陷阱(attention sinks)在有限预算下维持生成质量 。此外,SnapKV(Li 等,2024e)和 PyramidKV(Cai 等,2024b)通过精准定位关键注意力集群或跨层动态调整缓存分配,来增强长上下文性能 。
虽然这些以文本为中心的令牌压缩技术已经证明了显著的功效,但将它们直接应用于 MLLM 面临着根本性的挑战 。多模态数据固有的异质性引入了单模态文本中不存在的独特冗余模式 。这些包括但不限于高分辨率图像中的空间相关性、视频序列中的时空连续性,以及音频流中的频谱-时间局部性 。这种特殊的冗余性需要开发专用的压缩策略 。因此,本综述系统地回顾了新兴的 MLLM 令牌压缩方法,这些方法能有效减少令牌冗余,同时保持任务性能 。
2.3 Vision Transformer Token Compression
视觉令牌压缩最初在视觉 Transformer (ViTs)(Vaswani 等,2017;Dosovitskiy 等,2020;Dong 等,2022;Liu 等,2021;Fan 等,2021;Li 等,2022;Graham 等,2021;Huang 等,2025a;Feng & Zhang,2023)中被首创,为解决 MLLM 中的类似挑战提供了深刻见解 。在 ViT 中,空间冗余表现为相邻的图像块(patches),并非所有的令牌对分类结果都有同等的贡献,并且还受到语义不平衡的加剧:与同质的背景相比,前景对象需要不成比例的计算资源 。为了缓解这些问题,人们采用了视觉令牌压缩技术来减少计算开销,同时保持模型精度 。
一些基础方法,包括 DynamicViT(Rao 等,2021)和 EViT(Liang 等,2022),通过注意力分数来量化令牌相关性,动态修剪低显著性令牌 。像 ToMe(Bolya 等,2022)和 TokenLearner(Ryoo 等,2021)这样的互补技术,要么使用相似度度量合并语义相似的令牌,要么通过学习到的空间注意力机制生成紧凑的令牌集 。DeiT(Touvron 等,2021)采用轻量级的"学生"头('student' heads)来预测压缩令牌子集中的分类标签 。此外,像 MADTP(Cao 等,2024)这样的方法利用跨模态对齐来过滤令牌 。
前文的分析表明,ViT 令牌压缩方法为 MLLM 中的令牌减少提供了实质性的启发 。然而,MLLM 不仅拥有编码低级特征的多模态令牌,还拥有传达高级抽象概念的文本令牌,并且伴随着长得多的令牌序列 。因此,MLLM 中的令牌压缩不仅比 ViT 中面临更大的挑战,而且对于提高计算效率变得越来越关键 。因此,本综述分析了在长上下文多模态环境下运行的 MLLM 令牌压缩技术的演变和未来发展方向 。
2.4 Problem Definition and Taxonomy Scope

3 Image-centric Token Compression
多模态长上下文令牌压缩方法通常根据其底层机制分为四类:基于变换的 方法直接转换跨模态信息,通过改变其尺度或表示形式来压缩令牌 ;基于相似性的 技术通过利用令牌之间固有的相似性来减少令牌 ;基于注意力的 策略利用多模态数据中注意力的稀疏性来引导压缩 ;而基于查询的方法在提示词的引导下,有选择地提炼多模态信息,以提取最相关的令牌 。这些方法各有其优缺点,总结在表 1 中 。具有代表性的以图像为中心的令牌压缩方法在表 2 中进行了进一步的比较 。
3.1 Transformation-based Image-centric Compression
基于变换的以图像为中心的压缩方法利用了 2D 图像表示中固有的空间冗余 。一些图像令牌压缩技术源自图像下采样操作(例如,池化、双线性插值)。根据具体的变换方法,这些可以大致分类如下:
3.1.1 Pixel Unshuffle

3.1.2 Spatial Pooling / Interpolation

3.1.3 Spatial Convolution

3.1.4 变换方法的比较分析
这些基于变换的、以图像为中心的压缩方法有效地利用了所有图像令牌,同时有意识地保留了 2D 特征的空间局部信息 。像素重排、池化和插值本质上是无参数的,因此不引入额外的权重开销,这是一个关键优势 。相比之下,卷积通过引入可训练的权重,学习到了更复杂的局部抽象 。
另一个显著的差异在于这些方法处理特征维度的方式:像素重排通常会改变隐藏层维度,这需要后续训练一个 MLP 以与文本维度对齐 。相反,池化和插值能够以一种免训练的方式实现,因为它们直接对已对齐的令牌维度进行操作 。
通过提取更精简(condensed)的信息,它们在性能和效率之间实现了卓越的平衡 。然而,由于 2D 下采样的固有特性,它们的令牌压缩率通常局限于几个特定的数量级,其中 25% 的压缩率最为常见 。
3.2 Similarity-based Image-centric Compression

3.2.1 Analysis of Similarity Methods
虽然基于相似性的方法有效地减少了令牌,但这种合并通常会忽略令牌原始的空间信息,导致空间上的误解(见表 1)。后续工作经常采用类似 DPC-KNN(Du 等,2016;Rodriguez & Laio,2014)的方法,或专注于局部空间相似性合并的技术,以防止空间信息的过度退化。此外,当令牌被过度泛化时,基于相似性的方法难以区分它们,容易导致误判。
3.3 Attention-based Image-centric Compression
基于注意力的令牌压缩方法利用视觉特征注意力的固有稀疏性来指导令牌的修剪。具有较低注意力分数的令牌通常可以被认为是可移除的,而不会显著影响原始计算。具体而言,这些方法利用注意力机制来识别并保留关键的令牌。值得注意的是,这与稀疏注意力方法(Yuan 等,2025;Zhang 等,2025d;Lu 等,2025;Yin 等,2025)共享相同的底层理念,后者专注于执行关键的注意力计算,但在不同的尺度上体现:前者作用于令牌数量,而后者作用于计算路径。在视觉语言模型中,视觉编码器和 LLM 解码器都结合了 Transformer。因此,基于注意力的压缩策略可以大致分为在编码器内应用的策略和在解码器内应用的策略。
3.3.1 Attention in Encoder

3.3.2 Attention in Decoder

FastV (Chen 等,2024a) 是最早发现大型视觉语言模型 (LVLM) 中一个显著低效问题的研究之一,即视觉令牌的注意力效率极低。例如,在 LLaVA-v1.5 中,在第二层之后,视觉令牌仅获得了系统提示所获得注意力的 0.21%。FastV 认为这是由于视觉信号过多,导致特定特征通过浅层自注意力机制聚集到"锚点 (anchor)"令牌上。因此,基于第二层之后的注意力分数修剪 50% 的视觉令牌可以保持最佳性能。PyramidDrop (Xing 等,2025) 将 LLM 内的令牌压缩过程结构化为多个阶段。它采用渐进式令牌压缩,以避免在较浅层中过度丢失视觉信息。VTW (Lin 等,2025c) 采取了更激进的修剪方法,认为在 LLM 内的特定层之后可以完全移除视觉令牌。用于移除视觉令牌的具体层是使用校准数据集确定的。 FitPrune (Ye 等,2025a) 侧重于减少每层视觉令牌的长度。它同时考虑视觉令牌的自注意力及其与文本令牌的交叉注意力来指导压缩。目标是找到一种最佳的修剪"配方",以最小化修剪前后的分布差距。ST\^3 (Zhuang 等,2025) 在生成过程中动态减少令牌。它还随着层数的加深,渐进式地修剪不被关注的视觉令牌。ATP-LLaVA (Ye 等,2025b) 在解码器层中引入了自适应令牌修剪 (ATP) 模块。该模块训练阈值头以自适应地预测当前层和实例的修剪阈值,从而移除冗余或与文本无关的视觉令牌。ZipVL (He 等,2025) 通过基于每层的注意力分数分布确定其压缩率来实现渐进式压缩。这允许在整个模型中对视觉令牌进行细粒度且自适应的缩减。
3.3.3 Critical Challenge for Pruning in Decoder
虽然这些方法利用 LLM 解码器内的注意力分数提供了压缩视觉令牌的复杂方法,但它们面临着一个重大的实际挑战:明确需要访问注意力分数。这种直接访问通常与 FlashAttention (Dao 等,2022;Dao,2024) 等高度优化的加速库不兼容,后者为了速度而隐式或以融合的方式计算注意力。可以通过仅出于修剪目的执行额外的、单独的注意力计算来缓解这种不兼容性。然而,对于 FitPrune、ST\^3 和 ZipVL 等渐进式修剪策略,这种额外的计算开销变得更加明显,可能会抵消效率的提升。
3.4 Query-based Image-centric Compression
视觉信息通常包含大量与给定查询无关的特征。基于查询的以图像为中心的压缩利用查询提示来指导视觉令牌的压缩。这些方法大致可分为两类:(1) 令牌蒸馏 (Token Distillation) :这些方法通过将视觉令牌蒸馏为特定、数量更少的令牌来压缩视觉令牌。(2) 跨模态选择 (Cross-Modal Selection):这些方法通过在模态对齐的视觉和文本令牌之间进行匹配来压缩令牌。
3.4.1 Token Distillation
令牌蒸馏起源于 MLLM 的早期投影器设计。目标是蒸馏视觉令牌以学习与文本最相关的视觉表示,在减少视觉令牌的同时对齐模态。Q-Former 系列 (Liu 等,2023;Li 等,2023c) 作为一种开创性的方法,使用可学习的查询和交叉注意力从视觉特征中提取相关的视觉线索。类似地,mPLUG-Owl (Ye 等,2023)、MiniGPT-4 (Zhu 等,2024)、Flamingo (Alayrac 等,2022) 和 Qwen-VL (Bai 等,2023) 都采用了基于可学习查询的架构变体,将视觉信息浓缩成一个更小的固定令牌集,然后再与语言模型对齐。LLaMA-VID (Li 等,2024d) 采用了一种极其激进的视觉令牌压缩方法。对于单张图像或视频帧,它利用上下文注意力,其中文本查询聚合来自视觉嵌入的与文本相关的视觉线索。最终,它仅使用两个令牌来表示整张图像的信息。LLaVA-Mini (Zhang 等,2025g) 通过将视觉信息直接预融合到文本令牌中实现了可比的性能,仅需要一个视觉令牌。虽然以前的方法依赖于外部模块进行视觉令牌压缩,但 VoCo-LLaMA (Ye 等,2025c) 值得注意的是,它是第一个使用 LLM 本身进行视觉令牌压缩的方法。它通过注意力蒸馏将 LLM 对视觉令牌的理解蒸馏到 VoCo 令牌的处理中。Victor (Wen 等,2024) 在视觉令牌之后引入了少量的可学习"寄存器令牌 (register tokens)"。然后,它使用大型模型的浅层将视觉信息蒸馏到这些寄存器中,丢弃所有原始视觉令牌,从而显著提高推理和训练效率。
3.4.2 Cross-Modal Selection
跨模态选择旨在通过利用来自另一种模态的对齐令牌来减少一种模态中的令牌数量。这种压缩是通过识别并保留跨模态的最相关信息来实现的,从而实现更高效、更有效的处理。为解决这一挑战,已经提出了几种引人注目的方法:
SparseVLM (Zhang 等,2024c) 采用视觉令牌来预选相关的文本令牌。通过利用视觉模态作为初始过滤器,SparseVLM 有效地缩小了文本搜索空间,将重点放在与视觉内容相关的信息上。AdaFV (Han 等,2025) 采用双指标方法来选择信息量最大的视觉令牌。它计算文本到图像的相似度以及从视觉编码器中提取的视觉显著性。通过结合这两个指标,AdaFV 识别出不仅在语义上与文本对齐,而且在视觉上突出或显著的视觉令牌。TRIM (Song 等,2025a) 引入了一种独特的方法,首先根据文本和视觉令牌之间的相似性识别异常 (outlier) 令牌;这些异常令牌被认为是重要的。随后,利用聚类算法合并剩余的、不太关键的令牌。这种方法在巩固其余部分之前,优先考虑独特的、高度相关的令牌。
3.4.3 Analysis of Similarity Methods
与前三种方法相比,虽然基于查询的方法可以精确保留与查询相关的令牌,但它们不适用于多轮问答 (QA) 场景。这是因为初始查询的令牌保留是基于其特定问题的。后续查询可能针对不同的令牌,需要重新执行令牌压缩过程。这使得该方法对于多轮对话非常低效。
4 Video-centric Token Compression
处理长篇高清 (HD) 视频给 VLM 带来了巨大的挑战,因为生成的令牌数量庞大,远远超过高分辨率图像的令牌数。与以图像为中心的压缩不同,视频本质上具有额外的时间冗余。虽然捕获完整的时间信息通常需要至少 24 帧每秒 (FPS) 的帧率,但即使以 1 FPS 的速度处理一个 10 分钟的高清视频,产生的令牌序列仍然比高分辨率图像大几个数量级,这使得传统的基于 Transformer 的 MLLM 无法在现实视频中部署。
为了解决这个问题,当前的视频 LLM 通常采用 1 FPS 的采样率来减少令牌数量。此外,与通常编码全局图像和一系列局部补丁进行详细特征提取的单图方法不同,视频处理通常放弃这种详细的帧级分割以将令牌数量保持在可控范围内。即使采用这些策略,视频令牌的数量仍然非常庞大。在模型训练和理解期间,通常使用基于变换的方法,例如 LLaVA-Video (Zhang 等,2024d) 中使用的池化技术,来减少令牌并帮助模型理解视频内容。
除了训练时优化之外,替代方法主要侧重于训练后优化。具体而言,基于相似性和基于注意力的方法为预训练的视频 MLLM 提供了通用的压缩技术。这些方法在不修改模型权重的情况下处理编码的令牌序列,从而在各种架构中实现即插即用的加速。通过动态识别关键的时空区域并修剪冗余令牌,这些技术显著增强了视频 MLLM 在实际应用中的实用性。
为了充分掌握视频 LLM 的令牌压缩,建议首先回顾第 3 节,其中详细介绍了空间压缩方法。接下来,我们将主要讨论解决时间领域的技术。与以图像为中心的方法类似,选定的以视频为中心的令牌压缩方法在表 3 中进行了比较。
4.1 Transformation-based Video-centric Compression
与图像 LLM 一样,视频 LLM 使用编码器处理视觉令牌。因此,基于变换的以视频为中心的压缩方法从根本上遵循了第 3.1 节中建立的原则,并增加了执行 3D 变换的能力。许多模型展示了跨模态的适用性,在图像和视频推理任务中均表现出色。按照 3.1 节的结构,我们现在将详细介绍基于变换的以视频为中心的压缩方法。
4.1.1 2D/3D Pooling
在视频 LLM 中,令牌池化是管理视频数据高维度的关键策略。虽然正如在 LLaVA-Video (Zhang 等,2024d) 中所见,2D 空间池化可以有效地减少单帧内的令牌数量,但仅靠其功效对于长时视频可能是有限的。因此,越来越多的视频 LLM,包括 PLLaVA (Xu 等,2024a)、Video-ChatGPT (Maaz 等,2024)、SlowFast-LLaVA (Xu 等,2025d) 和 LongVLM (Weng 等,2024),都强调时间池化,这涉及在帧级别进行下采样。
值得注意的是,PLLaVA 证明了模型性能对时间池化比对空间池化更敏感,突出了其关键作用。对于极长的视频序列,LLaMA-VID (Li 等,2024d) 采用了一种更激进的自适应池化方法。该方法智能地保持了单图输入的原始分辨率,但在扩展序列处理期间将每个视频帧压缩为单个令牌,实现了大幅数据缩减,同时旨在保留基本信息。这种对空间池化以及日益对时间池化的双重关注突显了它们在实现高效处理和全面理解视频内容方面的综合重要性,特别是随着视频持续时间的延长。SlowFast-LLaVA (Xu 等,2025d) 将双流 SlowFast 投影器整合到类似 LLaVA 的架构中,使用慢速路径对空间特征丰富但数量较少的帧进行采样,使用快速路径对空间压缩但数量较多的帧进行采样,然后将两者拼接以供 LLM 使用------在减少令牌数量的同时实现了高效的长视频理解并保留了时空细节。
4.1.2 2D/3D Convolution
与池化类似,卷积也可用于对视频令牌进行下采样,但它是以参数化的方式进行的。卷积层不是像池化那样简单地聚合信息,而是学习过滤器来处理和浓缩空间和时间特征。例如,VideoLLaMA 2 (Cheng 等,2024c) 深入研究了 2D 和 3D 的池化和卷积方法。他们的实验表明,对于视频令牌下采样,3D 卷积在性能和效率上取得了最佳平衡。这表明,与单独的池化相比,通过卷积学习复杂的时空关系对于全面的视频理解更为有效。
4.2 Similarity-based Video-centric Compression
鉴于视频中固有的时间冗余(相邻帧通常表现出高度的视觉相似性),时间压缩通常优先于空间压缩或与空间压缩相结合。为了有效地处理这种时间冗余,通常首先对视频帧进行聚类。
Chat-UniVi (Jin 等,2024) 最初将每个视频帧池化为单个帧级表示令牌。然后,它利用 DPC-KNN (Du 等,2016;Rodriguez & Laio,2014)(基于 K 近邻的密度峰值聚类)根据这些帧表示令牌合并非必要帧。在每个结果聚类中,来自多个帧的令牌被进一步聚类,以获得简明的时空视觉表示。类似地,FastVID (Shen 等,2025a) 仅根据其相邻帧表示令牌的相似性对视频帧进行划分。然后它在这些聚类帧内采用 DPC-KNN 合并令牌,从而减少时空冗余。PruneVid (Huang 等,2025c) 采用了与 Chat-UniVi 相同的帧聚类方法。关键区别在于,它在执行时空令牌整合之前,首先对时间上静态的令牌进行初始合并。HoliTom (Shao 等,2025) 认为,依赖单一的帧级表示令牌进行视频帧聚类可能会导致细节捕获次优,而且静态时间令牌的初步合并与原始的帧聚类方法是脱节的。HoliTom 将时间冗余压缩重新概念化为一个优化问题,旨在最大化所有聚类帧中可压缩的时间冗余特征,从而更全面地解决时间压缩问题。DyCoke (Tao 等,2025a) 将帧分成四个一组,直接在每组内执行时间修剪。
虽然有些方法没有显式地聚类视频帧,但例如 FrameFusion (Fu 等,2025b) 作为视频 LLM 的一种令牌压缩技术,它直接在模型的浅层中合并超过特定阈值的时间冗余令牌。
4.3 Attention-based Video-centric Compression
视频 LLM 和图像 LLM 中当前的基于注意力的令牌压缩方法有很大的相似之处。当注意力应用于编码器内以指导令牌压缩时,通常将视频视为一系列图像馈入图像编码器,这使得这些方法类似于以图像为中心的令牌压缩。有关此类基于注意力的方法的更简明讨论,请参阅第 3.3 节。
相反,在解码器内采用注意力的方法则按顺序处理视频帧,将它们的令牌随时间拼接。对于较长的视频,特别是在流媒体视频 LLM 的背景下,通常使用窗口注意力 (windowed attention) 来通过关注局部时间视觉信息来减轻计算开销。然而,值得注意的是,即使解码器内的这些基于窗口注意力的方法通常也具有与第 3.3 节讨论的相同的基础原则。
4.4 Query-based Video-centric Compression
4.4.1 Token Distillation
视频 LLM 中的令牌蒸馏通常依赖于专用的适配器模块,例如 Q-former (Liu 等,2023;Li 等,2023c) 或令牌图灵机 (Token Turing Machines) (Ryoo 等,2023)。这些模块通常将视频令牌与可学习的查询令牌一起处理以进行关注。
令牌图灵机 (TTMs) (Ryoo 等,2023) 维护摘要令牌的紧凑外部记忆,通过基于 Transformer 的读/写机制在每个时间步按顺序压缩新输入令牌和记忆,从而实现对长视频序列的可扩展和高效处理。BLIP-3-Video (Ryoo 等,2024) 引入了一个显式的时间编码器,使用可学习的池化和序列模型将数百个帧级视觉令牌抽象为少至 16-32 个时空令牌,从而以有限的令牌使用实现高效的视频理解。LinVT (Gao 等,2024a) 提出了一种即插即用的线性视频分词器 (Linear Video Tokenizer),它通过时空评分、多尺度池化和以文本为条件的聚合,将帧级视觉令牌线性聚合成紧凑的视频令牌集,使现有的图像 LLM 能够有效地处理视频并动态提取与问题相关的信息。Long-VMNet (Gurukar & Kadav,2025) 通过使用神经采样器从视频片段中选择具有判别力的视觉令牌,并将它们存储在每个视频的固定大小的记忆库中,从而加速长格式视频理解;下游查询仅通过处理这些记忆令牌来回答,极大地降低了计算成本,同时保留了关键的时空信息。STORM (Jiang 等,2025a) 在图像编码器和 LLM 之间插入了一个基于 Mamba (Gu & Dao,2024a) 的时间编码器,使用时空扫描和池化将时间上下文注入帧令牌中,然后通过时间和空间池化极度激进地压缩令牌,从而实现以最小的令牌损失进行高效的长视频理解。要了解视频 LLM 中令牌蒸馏的更多方法和应用,请参阅第 3.4 节进行详细解释。
4.4.2 Cross-Modal Selection
在视频大语言模型 (视频 LLMs) 中,查询通常用于指导显著帧的选择。在极端情况下,只有少数几帧与提出的问题相关,从而允许丢弃绝大多数其余帧的令牌。在处理海量帧时,寻找与查询相关的信息可能类似于 LLM "大海捞针"。基于查询的令牌压缩方法可以预过滤与查询相关的令牌,从而显着减轻 LLM 的计算负担。
LongVU (Shen 等,2025b) 是这种方法的一个例子。它通过跨模态交互计算每个视频帧与查询的相关性。该相关性分数随后决定关键帧采用较低的压缩率,从而更好地保留关键信息,同时确保令牌总数保持在 LLM 的最大上下文长度之内。
5 Audio-centric Token Compression
对于音频 LLM 而言,对更长上下文的需求源于处理更高采样率和更长持续时间的音频的需要。
从音频模态提取信息可以根据音频表示的格式进行分类:(1) 连续序列建模 :这种方法利用预训练的音频编码器,通常是 Whisper (Radford 等,2023) 或 Conformer (Gulati 等,2020) 等模型,产生连续的音频嵌入;(2) 离散序列建模:该方法将输入音频信号转换为离散的音频令牌,通常通过向量量化 (vector quantization),将连续的音频特征编码为可学习的代码本 (codebook)。主流方法包括 HuBERT (Hsu 等,2021) 和 EnCodec (Défossez 等,2022;Zeghidour 等,2021)。
第二类通过分词器结构和代码本的设计固有地减少了令牌数量。然而,对这些特定设计考虑因素的深入探索超出了本综述的范围。
音频作为一种代表随时间变化的振幅的 1D 信号,必须被转换为适合深度学习模型的格式,尤其是在与 MLLM 集成时。MLLM 通常利用为 2D 数据(如图像)或一般序列设计的架构。虽然原始波形是来源,但频谱图(尤其是梅尔频谱图 Mel-spectrograms)通常是 MLLM 中音频的首选表示。出现这种偏好是因为频谱图允许应用类似于图像处理的技术,从而促进多模态学习。
因此,与视觉模态非常相似,我们将音频令牌压缩方法分类如下:
5.1 Transformation-based audio-centric Compression
遵循视觉模态的分类,我们可以根据它们的下采样操作对方法进行分类:
5.1.1 Token Stacking
类似于 2D 图像处理中的像素重排操作,音频 LLM 令牌压缩的这种方法涉及沿令牌的隐藏维度堆叠多个连续的令牌。这有效地减少了令牌的总数。值得注意的是,HTS-AT (Chen 等,2022) 是音频 Transformer 内分类任务中音频令牌堆叠的早期示例,它对从梅尔频谱图提取的 2D 特征利用 2D 像素重排来减少音频令牌。更近期的方法,如 SLAM-ASR (Ma 等,2024c)、LLaMA-Omni (Fang 等,2024)、Llama-AVSR (Cappellazzo 等,2025a) 和其他方法 (Fathullah 等,2024) 堆叠音频令牌。由于这些令牌堆叠操作改变了隐藏层维度,因此通常使用 MLP 来重新对齐维度,以兼容其他模态。
5.1.2 Pooling
另一种减少音频令牌数量的常见技术是池化。诸如 Qwen2-audio (Chu 等,2024b) 和 Qwen2.5-Omni (Xu 等,2025b) 等模型利用步幅为 2 的池化层,以一种无参数的方式直接降低音频表示的长度。这有效地对音频特征进行下采样,产生了更加紧凑的令牌序列。扩展这一概念,Llama-MTSK (Cappellazzo 等,2025b) 采用了一种基于套娃 (matryoshka) 的训练方法来实现灵活的令牌压缩。它通过以不同比率对初始令牌应用平均池化或令牌堆叠,利用多尺度的音频和视频信息对模型进行训练。这使得 Llama-MTSK 能够在推理期间动态调整处理的令牌数量,从而在单个模型中平衡压缩和性能。
5.1.3 Temporal Convolution
对于音频令牌,跨时间维度应用的 1D 卷积可以减少令牌的数量。此方法同时允许对齐后续 LLM 的隐藏维度。像 SpeechVerse (Das 等,2024)、Baichuan-Audio (Li 等,2025c)、OSUM (Geng 等,2025) 和 LUCY (Gao 等,2025) 等方法已经采用了这种技术,通常会产生下采样的音频表示,有效采样率约为 12.5 Hz。
这些方法证明了如何将来自图像压缩(特别是涉及变换)的见解有效地应用于音频领域,以实现大型模型更高效的令牌表示。
5.2 基于相似性的以音频为中心的压缩
基于相似性的压缩方法旨在使每个音频令牌携带独特的信息,而不是过度冗余。类似于视觉 Transformer (ViT) 中使用的 ToMe (Bolya 等,2022) 方法,A-ToMe (Li 等,2023f) 在多头自注意力 (MHSA) 和前馈网络 (FFN) 之间插入了一个令牌合并模块。该模块合并了具有高余弦相似度的相邻音频令牌。
5.3 Similarity-based audio-centric Compression
对于音频任务,基于注意力的方法也被有效地用于压缩令牌。
5.3.1 Attention in Encoder
Top-K (Lee & Lee,2025) 是一种在音频频谱图 Transformer 块内运行的令牌选择方法。它仅保留按其注意力分数大小排名的前 K 个音频令牌。这修剪了较少受到关注的令牌,重点关注由自注意力机制确定的具有更高相关性的令牌。
5.3.2 Attention in Decoder
SpeechPrune (Lin 等,2025b) 在 LLM 主干网络中运行。它根据第一个 Transformer 层提供的注意力分数来修剪音频令牌。通过利用初始层的注意力,SpeechPrune 有效地在处理管道早期识别并丢弃不太重要的令牌,旨在减轻后续层的计算负担并提高效率,同时不会造成重大信息丢失。
5.4 Query-based audio-centric Compression
音频特征表示也可以使用其他模态或学习到的查询机制进行压缩。类似于图像 LLM,根据是否明确使用了学习到的查询,这些方法可以大致分为令牌蒸馏和跨模态选择。
5.4.1 Token Distillation
该类别利用可学习的查询令牌将全面的音频信息蒸馏成紧凑的固定长度表示。
Video-LLaMA (Zhang 等,2023a) 和 SALMONN 系列 (Tang 等,2024;Sun 等,2024b) 采用音频 Q-former 将可变长度的音频输入转换为可学习查询的固定长度序列,从而为 LLM 浓缩音频信息。MMCE-Qformer (Xue 等,2024) 通过利用可学习的查询从上下文音频嵌入中提取全局声学上下文来压缩声学信息。同时,由输入文本嵌入引导的交叉注意力机制捕获与每个文本令牌相关的局部声学上下文。这种双重方法将广泛的和特定的音频特征都蒸馏成紧凑的、与文本相关的表示。MMS-LLaVA (Yeo 等,2025) 减少了多模态令牌长度以实现高效的语音 LLM。它首先使用早期视听 (AV) 融合模块将序列长度减半,该模块结合了视觉和音频特征。随后,一个 AV Q-Former 进一步将这些融合的特征压缩为固定数量的查询,有效地捕获完整的语音上下文以弥合与文本的令牌差距。
5.4.2 Cross-Modal Selection
与视觉模态类似,音频令牌压缩也可以由来自其他模态的信息来引导。例如,Speechprune (Lin 等,2025b) 利用音频-文本相关性来识别语义上重要的音频片段。这是通过计算基于余弦相似度的跨模态相似度矩阵来实现的,然后该矩阵引导音频令牌的压缩。这种方法确保保留了最相关的音频信息。
5.5 Discussion about Specific Redundancy of Audio
与视觉模态不同,音频信号表现出高采样率和显著的频谱-时间相关性。即使是简短的语音片段也会产生数百个令牌,其中很大一部分包含重叠或冗余的信息。本节阐述了音频固有的冗余模式------特别是频谱冗余、时间冗余以及静音或重复噪音------为在音频 LLM 中实现高效的令牌压缩奠定基础。
5.5.1 Spectral and Temporal Redundancy
像视频一样,音频表现出内在的时间结构。因此,沿时间维度压缩令牌是一种有根据的策略 (Someki 等,2025)。同时,考虑到音频的高采样率产生了阻碍计算效率的密集令牌序列,必须在保留语义完整性的同时减轻频谱冗余。最近,Bhati 等人 (2025) 开创了音频 LLM 令牌修剪的先河,在解决时间冗余之前,他们利用频谱特征进行分割。他们的方法只需极少的微调即可大幅降低令牌密度。
5.5.2 Silence and Audio Noise
许多自动语音识别 (ASR) 管道显式地去除了长时间的停顿和噪声,在波形层级有效地执行粗粒度的修剪。然而,端到端系统仍然接收带有静音或噪声片段的音频令牌序列。尽管有些令牌是冗余的,但其他令牌则带有对下游任务有益的上下文线索;因此,开发有原则的音频令牌修剪仍然是未来工作的一个有前途但具有挑战性的途径。
6 Discussions
6.1 Synergies and Distinctions with Other Compression Methods

6.1.1 Weight-Focused Compression Methods