视觉令牌压缩：Vision-centric Token Compression in Large Language Model

一、研究背景

随着现实世界应用对大语言模型（LLMs）的需求不断升级，上下文窗口被扩展至数十万token，同时模型参数规模从数十亿激增至万亿级别。这种"长上下文+大模型"的双重扩张导致计算成本和内存消耗飙升，使得token压缩成为LLMs高效处理长文本任务的必备技术。

现有token压缩方法存在诸多局限：依赖LLM自身计算token信息熵的方法成本高昂；基于文本编码器的压缩方法（如CEPE）未充分解决长文本中的冗余问题，难以引导模型聚焦关键语义；传统文本分词器面临词汇瓶颈、对字符级噪声敏感、多语言处理效率低等问题。而心理语言学研究表明，人类阅读存在"选择性浏览"策略------会聚焦低频、富含语义的词汇，跳过约三分之一的高频功能词，这为设计高效压缩框架提供了灵感。

二、核心工作

提出一种名为VIST（Vision-centric Token Compression）的快慢双路径压缩框架，模拟人类阅读模式，通过轻量级视觉编码器处理长文本上下文，实现高效token压缩，同时保持甚至提升LLMs的任务性能。

核心贡献包括：

构建快慢双路径架构：快速路径将远距离低显著性文本转换为图像，通过冻结的轻量级视觉编码器快速浏览；慢速路径将近距离关键文本输入LLM进行细粒度推理。
设计概率感知视觉增强（PVE）目标：基于token频率的掩码策略，抑制高频低信息token，引导重采样器（Resampler）聚焦语义丰富区域，弥合视觉token与文本token的语义鸿沟。（配合设计了相应的损失函数）
验证视觉编码器在文本处理中的优势 ：简化分词流程、突破词汇瓶颈、增强字符级噪声鲁棒性、提升多语言处理效率。

三、研究方法

1. 整体框架

VIST将输入长文本分为两部分（T=Tc+TdT=T_c+T_dT=Tc+Td）：TcT_cTc个文本token通过视觉路径处理，TdT_dTd个原始文本token直接输入LLM。具体流程为：

文本渲染 ：将TcT_cTc个token均匀渲染为M张RGB图像（分辨率224×224），采用10px字体和Google Noto Sans字体，空白区域掩码处理。
视觉编码：冻结的视觉编码器（ViT-L/14）提取图像特征，输入可训练的Perceiver Resampler，生成固定数量的视觉token（含CLS token）。
跨注意力融合：视觉token通过跨注意力层与LLM输入融合，共同参与下一个token预测，Resampler与LLM跨注意力层端到端联合训练。

2. 概率感知视觉增强（PVE）

文本锚定语义一致性：通过对比损失函数，使Resampler输出的视觉特征与LLM分词器提取的文本token嵌入对齐，构建共享嵌入空间。
频率基于掩码策略 ：基于香农信息论，低频token被视为高信息token，计算token重要性得分sw=log∣S∣1+count(w)s_w=log\frac{|\mathcal{S}|}{1+count(w)}sw=log1+count(w)∣S∣，对50%低重要性token进行掩码，提升文本嵌入的信息密度。其中S表示样本数，count(w)表示该词汇的统计数量。

3. 关键参数配置

图像尺寸：H=14、W=3584、C=3，对应224×224分辨率；
压缩比例：每1024个文本token渲染为7张图像，生成448个视觉token，压缩比达2.3×；
训练设置：采用float16精度和DeepSpeed Zero-2优化，训练序列长度4608（前4096个token走视觉路径，后512个token直接输入LLM）。

四、实验设计

1. 实验环境

基础模型：TinyLlama（主要验证）、Mistral 7B（通用性验证）；
视觉编码器：冻结的ViT-L/14（来自OpenCLIP）；
预训练数据集：RedPajama数据集的1B token样本，涵盖7个领域（ArXiv、Book、C4等）；
对比方法：长上下文模型（Replug、Stream）、文本编码器压缩方法（CEPE∗）、视觉中心压缩方法（ToMe†、FastV†）。

2. 评估任务与指标

长上下文语言建模（LCM）：在ArXiv、Book、PG19等数据集上，以困惑度（PPL）为指标，评估最后256个token的预测性能；
上下文学习（ICL）：11个文本分类数据集（SST2、MR、AGN等），评估平均准确率（3个随机种子）；
开放域问答（QA）：TriviaQA、NQ、PopQA数据集，以精确匹配（EM）为指标；
消融实验：验证掩码策略、编码器输入长度、图像token数量、模型通用性的影响。

五、实验分析

1. 长上下文语言建模

VIST随输入长度增加，困惑度持续下降，在Book数据集上达到最低PPL（14.973），而TinyLlama超过2048token后性能骤降（PPL>10³）；
与CEPE∗相比，VIST处理14336个token时，TFLOPs减少3.78，内存占用减少6.84GB，吞吐量提升2.3×。

2. 上下文学习

VIST在11个数据集上平均准确率达50.4%，较CEPE∗提升3.6%，且随着演示样本数量增加，性能稳步提升（+17.1%）；
TinyLlama在50个演示样本时因上下文窗口限制性能下降，而VIST保持稳定，验证了长上下文处理能力。

3. 开放域问答

当输入20个相关段落（10个走视觉路径，10个直接输入LLM）时，VIST在TriviaQA上的EM分数达25.67，较CEPE∗提升9.11个百分点；
仅使用视觉路径（10个段落）时，VIST性能与TinyLlama（全量处理10个段落）相当，证明快速路径的信息蒸馏能力；
CEPE∗随输入段落增加性能下降，而VIST因PVE的降噪机制保持稳定。

4. 消融实验

图像token数量：64个token时性能最优，过多或过少均会导致性能下降（平衡信息保留与噪声引入）；
掩码策略：移除频率基于掩码后，ICL和QA性能显著下降，验证了高信息密度文本嵌入的引导作用；
编码器输入长度：6144个token时QA任务EM分数最高， longer训练文本有助于模型提取长上下文关键信息；
通用性：在Mistral 7B上，VIST较CEPE‡在LCM任务上PPL降低0.21，ICL任务准确率提升3.7个百分点，证明跨模型适用性。

六、总结

VIST创新性地将视觉编码引入LLM长文本token压缩，通过模拟人类选择性阅读的快慢双路径架构，结合概率感知视觉增强目标，在大幅降低计算成本（减少16% FLOPs、50%内存）和提升token效率（2.3×压缩比）的同时，在长上下文建模、上下文学习、开放域问答等任务中超越传统文本编码器压缩方法。

研究还验证了文本token中存在显著冗余，低频token是语义完整性的核心载体，为后续长文本处理研究提供了新视角。未来方向包括扩展更多下游任务评估、深入探索文本token冗余特性、优化多语言场景下的文本渲染与编码策略。