【第四十七周】自然语言处理课程作业记录

文章目录

摘要
Abstract
[一、基于LLM的多模态视觉 Token 压缩技术研究综述](#一、基于LLM的多模态视觉 Token 压缩技术研究综述)
- 1.引言
- 2.视觉Token压缩发展状况
- - [2.1 发展脉络](#2.1 发展脉络)
  - [2.2 核心技术分类](#2.2 核心技术分类)
  - - [2.2.1 通用视觉Token压缩](#2.2.1 通用视觉Token压缩)
    - [2.2.2 基于LLM的视觉Token压缩](#2.2.2 基于LLM的视觉Token压缩)
- 3.适配视觉Token压缩的典型LLM/MLLM模型
- 4.未来发展方向
- - [4.1 视觉Token压缩现存挑战](#4.1 视觉Token压缩现存挑战)
  - [4.2 发展方向](#4.2 发展方向)
- 5.总结
总结

摘要

本周主要完成自然语言处理课程作业------基于LLM的多模态视觉 Token 压缩技术研究综述的撰写，同时对项目内容进行调整。

Abstract

This week, I completed the coursework for the Natural Language Processing course, which is a research survey on LLM-based multimodal visual token compression technology. Meanwhile, I adjusted and optimized the content of the project.

一、基于LLM的多模态视觉 Token 压缩技术研究综述

1.引言

多模态大语言模型（MLLMs）实现文本与视觉信息的统一理解与交互，已成为人工智能领域核心研究方向。视觉编码环节会将图像、视频转换为海量视觉Token，其规模可达文本Token的数千倍，而Transformer自注意力的平方级计算复杂度，导致模型在高分辨率图像、长视频处理中面临算力消耗大、推理延迟高、显存占用超限等瓶颈。视觉Token压缩旨在保留关键语义信息的前提下精简Token序列，成为提升MLLMs效率的关键技术。

本文聚焦于"基于LLM"的视觉Token压缩技术，即利用大语言模型内部信息（如跨模态注意力权重、任务损失梯度）来指导压缩决策。这类方法能够实现任务感知的动态压缩，显著提升压缩效率与语义保真度。同时，为提供完整的技术背景，本文也系统回顾了LLM无关的通用视觉Token压缩方法（如变换下采样、相似度聚类等），作为对比基线。

2.视觉Token压缩发展状况

2.1 发展脉络

起步阶段：聚焦静态图像压缩，以池化、卷积等变换方法为主，通过简单下采样减少Token，保留空间结构但压缩比例固定、灵活性差。

发展阶段：基于相似度、注意力的方法兴起，通过聚类合并相似Token、依据注意力分数剪枝低相关Token，压缩效率提升，但存在语义丢失、注意力偏置问题。

成熟阶段：面向视频时空冗余、长上下文理解，出现时空联合压缩、文本引导压缩、免训练自适应压缩，兼顾语义完整性与极端压缩下的性能稳定性。

前沿阶段：结合语义连通组件、遗传算法、多阶段渐进压缩，实现语义全覆盖、动态适配与全链路效率优化。

2.2 核心技术分类

2.2.1 通用视觉Token压缩

（1）基于变换的压缩

通过池化、卷积、像素重组等数学变换直接减少Token数量。

优势：保留空间结构、计算简单。

局限：压缩比例固定，难以适配不同语义复杂度的图像。

代表：平均池化、卷积下采样、TokenShuffle。

（2）基于相似度的压缩

计算视觉Token之间的特征相似度，通过聚类合并相似Token，消除空间/时间冗余。

优势：灵活适配、无需训练。

局限：过度合并易丢失细节，对运动物体处理不佳。

代表：K-means聚类、ToMe、LLaVA-Scissor中的语义连通组件（SCC）。

注：LLaVA-Scissor虽然应用于MLLM，但其压缩核心（SCC聚类）不依赖LLM，故归入此类。

2.2.2 基于LLM的视觉Token压缩

（1）基于LLM跨模态注意力的压缩

在LLM推理过程中，计算文本Token与视觉Token之间的交叉注意力权重，将低注意力分数的视觉Token剪枝。

优势：任务驱动、可解释性强。

局限：注意力偏置（倾向于保留图像底部/序列后部Token）、与FlashAttention等加速库存在兼容性问题。

代表：DynamicViT（扩展至跨模态）、VisionZip、PoRe（位置重加权修正偏置）。

（2）基于文本引导的压缩

以用户问题或文本指令为条件，仅保留与任务语义相关的视觉Token。文本嵌入可作为查询向量与视觉Token做交叉注意力，或直接计算文本-视觉相似度进行筛选。

优势：信息高度精炼，适配视觉问答、目标检测等任务。

局限：多轮对话需重新压缩，流式场景效率受限。

代表：QG-VTC（问题引导分层压缩）、FlashVLM（文本-视觉相似度筛选）、SparseVLM（文本引导稀疏化）。

3.适配视觉Token压缩的典型LLM/MLLM模型

视觉Token压缩需与LLM主干、视觉编码器深度适配，以下为契合度高的主流模型：

（一）LLaVA系列

同时适配通用压缩（如LLaVA-Scissor的语义连通组件SCC）和基于LLM的压缩（如LLaVA-PruMerge的注意力剪枝）。

压缩类型归属：混合压缩适配模型（两类压缩均可承载）。

（二）FastVLM

其压缩通过FastViTHD编码器的架构性下采样实现，属于静态变换压缩。

压缩类型归属：通用压缩适配模型（LLM无关，基于变换的压缩）。

（三）Glyph模型

将长文本渲染为图像，通过VLM进行Token压缩。压缩模块本身可使用通用方法，但整体流程以LLM为最终消费者，且渲染参数优化可由LLM驱动。

压缩类型归属：基于LLM的压缩适配模型（LLM驱动框架，特殊范式）。

（四）BLIP-3-Video

采用独立时间编码器，将视频帧序列压缩至32个视觉Token，探索多种时间编码器类型（可学习时空池化、Token Turing Machines等）。

压缩类型归属：通用压缩适配模型（LLM无关，基于变换/池化的时域压缩）。

（五）Qwen-VL / Qwen2-VL系列

自身使用MLP进行2×2邻近Token压缩，同时作为适配平台可兼容QG-VTC、V²Drop、ZipR1等基于LLM注意力的动态剪枝方法，能够剪枝50%～75%的视觉Token，保留96%以上的原始性能。

压缩类型归属：混合压缩适配模型（自身含通用压缩模块，同时适配外部基于LLM的压缩方法）。

4.未来发展方向

4.1 视觉Token压缩现存挑战

1.语义完整性与压缩率失衡：极端压缩下易丢失细节，低压缩率则效率提升有限。

2.注意力偏置问题：传统注意力方法倾向保留序列后部/图像底部Token，忽略关键前景信息。

3.场景适配性差：静态图像压缩方法难以适配视频时空动态，通用方法在OCR、细粒度识别任务性能下滑。

4.兼容性与部署难题：部分压缩方法与FlashAttention、KV缓存优化不兼容，端侧部署算力受限。

4.2 发展方向

（一）语义驱动的自适应极端压缩 - 基于语义连通组件、主语义成分分析（PSCA），实现语义全覆盖+动态压缩比例，根据图像复杂度、视频内容自适应调整Token保留率，兼顾极端压缩与语义保真。

（二）全链路多阶段协同压缩 - 突破单模块压缩局限，构建视觉编码器→投影层→LLM预填充/解码全链路渐进压缩，结合粗到精策略，层层精简冗余，降低整体计算复杂度。

（三）LLM原生融合的压缩范式 - 抛弃"先编码再压缩"的独立模块思路，将压缩逻辑融入LLM训练，通过注意力蒸馏、模态预融合，让LLM原生理解压缩Token，如LLaVA-Mini将视觉信息融入文本Token，实现单Token输入。

（四）文本-视觉双向引导压缩 - 结合文本指令语义与视觉特征，实现任务感知动态压缩：文本引导筛选任务相关Token，视觉特征补充全局上下文，解决单模态引导的信息缺失问题。

（五）视频时空联合高效压缩 - 深化时空协同压缩，结合物体跟踪、运动特征建模，精准区分动态物体与静态背景，消除运动场景冗余，同时兼容流式视频实时处理。

（六）硬件友好的轻量化压缩 - 研发免训练、低计算开销的压缩算法，兼容端侧芯片、移动设备，结合量化、剪枝联合优化，实现压缩+轻量化双重效率提升，支撑多模态模型普惠部署。

（七）跨模态统一压缩与评估 - 构建图像、视频、文本统一Token压缩框架，突破模态壁垒；建立标准化评估基准（如UniPruneBench），统一压缩率、性能、延迟评测体系，推动技术迭代。

5.总结

视觉Token压缩是破解多模态大语言模型效率瓶颈的核心技术，已从简单变换、注意力剪枝，演进为语义驱动、时空协同、文本引导的精细化方案。LLaVA系列、FastVLM等模型的适配实践，验证了压缩技术对推理效率的显著提升作用。

未来研究应聚焦于：语义驱动的自适应极端压缩、全链路多阶段协同、LLM原生融合的压缩范式、文本-视觉双向引导、视频时空联合高效压缩、硬件友好的轻量化算法，以及跨模态统一评估基准的构建。基于LLM的视觉Token压缩正从"后处理剪枝"迈向"任务感知、动态适配、原生融合"的新阶段。

总结

先想清楚"基于LLM"到底指什么

这个标题的关键词容易"望文生义"。我的理解是：压缩过程是否真的用到了LLM的内部信号（比如注意力分数、文本嵌入、梯度反馈），还是仅仅把LLM当作压缩结果的使用者？这两者差别不小。如果一开始不把这个边界划清楚，正文和标题很容易"各说各话"。
分类方式决定了综述的骨架

初期我按"变换---相似度---注意力---文本引导"来分，看起来挺全，但仔细一想，"注意力"里面既有视觉自注意力（跟LLM没啥关系），也有跨模态注意力（确实用了LLM），混在一起会让读者困惑。后来改成"通用压缩（作为背景基线）+ 基于LLM的压缩（作为核心线索）"，整个逻辑就顺了。
介绍模型时，别忘给它贴上"压缩类型"标签

像LLaVA、FastVLM、Glyph这些模型，读者想知道的不只是"它们能干什么"，更想知道"它们属于哪一类压缩"------是LLM无关的，还是LLM驱动的，还是混合型。每个模型用一句话点明归属，比长篇技术罗列更有用。