视觉令牌压缩:Vision-centric Token Compression in Large Language Model

一、研究背景

随着现实世界应用对大语言模型(LLMs)的需求不断升级,上下文窗口被扩展至数十万token,同时模型参数规模从数十亿激增至万亿级别。这种"长上下文+大模型"的双重扩张导致计算成本和内存消耗飙升,使得token压缩成为LLMs高效处理长文本任务的必备技术。

现有token压缩方法存在诸多局限:依赖LLM自身计算token信息熵的方法成本高昂;基于文本编码器的压缩方法(如CEPE)未充分解决长文本中的冗余问题,难以引导模型聚焦关键语义;传统文本分词器面临词汇瓶颈、对字符级噪声敏感、多语言处理效率低等问题。而心理语言学研究表明,人类阅读存在"选择性浏览"策略------会聚焦低频、富含语义的词汇,跳过约三分之一的高频功能词,这为设计高效压缩框架提供了灵感。

二、核心工作

提出一种名为VIST(Vision-centric Token Compression)的快慢双路径压缩框架,模拟人类阅读模式,通过轻量级视觉编码器处理长文本上下文,实现高效token压缩,同时保持甚至提升LLMs的任务性能。

核心贡献包括:

  1. 构建快慢双路径架构:快速路径将远距离低显著性文本转换为图像,通过冻结的轻量级视觉编码器快速浏览;慢速路径将近距离关键文本输入LLM进行细粒度推理。
  2. 设计概率感知视觉增强(PVE)目标:基于token频率的掩码策略,抑制高频低信息token,引导重采样器(Resampler)聚焦语义丰富区域,弥合视觉token与文本token的语义鸿沟。(配合设计了相应的损失函数)
  3. 验证视觉编码器在文本处理中的优势 :简化分词流程、突破词汇瓶颈、增强字符级噪声鲁棒性、提升多语言处理效率。

三、研究方法

1. 整体框架

VIST将输入长文本分为两部分(T=Tc+TdT=T_c+T_dT=Tc+Td):TcT_cTc个文本token通过视觉路径处理,TdT_dTd个原始文本token直接输入LLM。具体流程为:

  • 文本渲染 :将TcT_cTc个token均匀渲染为M张RGB图像(分辨率224×224),采用10px字体和Google Noto Sans字体,空白区域掩码处理。
  • 视觉编码:冻结的视觉编码器(ViT-L/14)提取图像特征,输入可训练的Perceiver Resampler,生成固定数量的视觉token(含CLS token)。
  • 跨注意力融合:视觉token通过跨注意力层与LLM输入融合,共同参与下一个token预测,Resampler与LLM跨注意力层端到端联合训练。

2. 概率感知视觉增强(PVE)

  • 文本锚定语义一致性:通过对比损失函数,使Resampler输出的视觉特征与LLM分词器提取的文本token嵌入对齐,构建共享嵌入空间。
  • 频率基于掩码策略 :基于香农信息论,低频token被视为高信息token,计算token重要性得分sw=log∣S∣1+count(w)s_w=log\frac{|\mathcal{S}|}{1+count(w)}sw=log1+count(w)∣S∣,对50%低重要性token进行掩码,提升文本嵌入的信息密度。其中S表示样本数,count(w)表示该词汇的统计数量。

3. 关键参数配置

  • 图像尺寸:H=14、W=3584、C=3,对应224×224分辨率;
  • 压缩比例:每1024个文本token渲染为7张图像,生成448个视觉token,压缩比达2.3×;
  • 训练设置:采用float16精度和DeepSpeed Zero-2优化,训练序列长度4608(前4096个token走视觉路径,后512个token直接输入LLM)。

四、实验设计

1. 实验环境

  • 基础模型:TinyLlama(主要验证)、Mistral 7B(通用性验证);
  • 视觉编码器:冻结的ViT-L/14(来自OpenCLIP);
  • 预训练数据集:RedPajama数据集的1B token样本,涵盖7个领域(ArXiv、Book、C4等);
  • 对比方法:长上下文模型(Replug、Stream)、文本编码器压缩方法(CEPE∗)、视觉中心压缩方法(ToMe†、FastV†)。

2. 评估任务与指标

  • 长上下文语言建模(LCM):在ArXiv、Book、PG19等数据集上,以困惑度(PPL)为指标,评估最后256个token的预测性能;
  • 上下文学习(ICL):11个文本分类数据集(SST2、MR、AGN等),评估平均准确率(3个随机种子);
  • 开放域问答(QA):TriviaQA、NQ、PopQA数据集,以精确匹配(EM)为指标;
  • 消融实验:验证掩码策略、编码器输入长度、图像token数量、模型通用性的影响。

五、实验分析

1. 长上下文语言建模

  • VIST随输入长度增加,困惑度持续下降,在Book数据集上达到最低PPL(14.973),而TinyLlama超过2048token后性能骤降(PPL>10³);
  • 与CEPE∗相比,VIST处理14336个token时,TFLOPs减少3.78,内存占用减少6.84GB,吞吐量提升2.3×。

2. 上下文学习

  • VIST在11个数据集上平均准确率达50.4%,较CEPE∗提升3.6%,且随着演示样本数量增加,性能稳步提升(+17.1%);
  • TinyLlama在50个演示样本时因上下文窗口限制性能下降,而VIST保持稳定,验证了长上下文处理能力。

3. 开放域问答

  • 当输入20个相关段落(10个走视觉路径,10个直接输入LLM)时,VIST在TriviaQA上的EM分数达25.67,较CEPE∗提升9.11个百分点;
  • 仅使用视觉路径(10个段落)时,VIST性能与TinyLlama(全量处理10个段落)相当,证明快速路径的信息蒸馏能力;
  • CEPE∗随输入段落增加性能下降,而VIST因PVE的降噪机制保持稳定。

4. 消融实验

  • 图像token数量:64个token时性能最优,过多或过少均会导致性能下降(平衡信息保留与噪声引入);
  • 掩码策略:移除频率基于掩码后,ICL和QA性能显著下降,验证了高信息密度文本嵌入的引导作用;
  • 编码器输入长度:6144个token时QA任务EM分数最高, longer训练文本有助于模型提取长上下文关键信息;
  • 通用性:在Mistral 7B上,VIST较CEPE‡在LCM任务上PPL降低0.21,ICL任务准确率提升3.7个百分点,证明跨模型适用性。

六、总结

VIST创新性地将视觉编码引入LLM长文本token压缩,通过模拟人类选择性阅读的快慢双路径架构,结合概率感知视觉增强目标,在大幅降低计算成本(减少16% FLOPs、50%内存)和提升token效率(2.3×压缩比)的同时,在长上下文建模、上下文学习、开放域问答等任务中超越传统文本编码器压缩方法。

研究还验证了文本token中存在显著冗余,低频token是语义完整性的核心载体,为后续长文本处理研究提供了新视角。未来方向包括扩展更多下游任务评估、深入探索文本token冗余特性、优化多语言场景下的文本渲染与编码策略。

相关推荐
集简云-软件连接神器4 小时前
技术实战:集简云语聚AI实现小红书私信接入AI大模型全流程解析
人工智能·小红书·ai客服
松☆4 小时前
深入理解CANN:面向AI加速的异构计算架构
人工智能·架构
rainbow7242444 小时前
无基础学AI的入门核心,从基础工具和理论开始学
人工智能
大闲在人4 小时前
7. 供应链与制造过程术语:“周期时间”
算法·供应链管理·智能制造·工业工程
小熳芋4 小时前
443. 压缩字符串-python-双指针
算法
子榆.4 小时前
CANN 与主流 AI 框架集成:从 PyTorch/TensorFlow 到高效推理的无缝迁移指南
人工智能·pytorch·tensorflow
七月稻草人4 小时前
CANN生态ops-nn:AIGC的神经网络算子加速内核
人工智能·神经网络·aigc
2501_924878734 小时前
数据智能驱动进化:AdAgent 多触点归因与自我学习机制详解
人工智能·逻辑回归·动态规划
芷栀夏4 小时前
CANN开源实战:基于DrissionPage构建企业级网页自动化与数据采集系统
运维·人工智能·开源·自动化·cann
物联网APP开发从业者4 小时前
2026年AI智能软硬件开发领域十大权威认证机构深度剖析
人工智能