【第四十七周】自然语言处理课程作业记录

文章目录


摘要

本周主要完成自然语言处理课程作业------基于LLM的多模态视觉 Token 压缩技术研究综述的撰写,同时对项目内容进行调整。


Abstract

This week, I completed the coursework for the Natural Language Processing course, which is a research survey on LLM-based multimodal visual token compression technology. Meanwhile, I adjusted and optimized the content of the project.


一、基于LLM的多模态视觉 Token 压缩技术研究综述

1.引言

多模态大语言模型(MLLMs)实现文本与视觉信息的统一理解与交互,已成为人工智能领域核心研究方向。视觉编码环节会将图像、视频转换为海量视觉Token,其规模可达文本Token的数千倍,而Transformer自注意力的平方级计算复杂度,导致模型在高分辨率图像、长视频处理中面临算力消耗大、推理延迟高、显存占用超限等瓶颈。视觉Token压缩旨在保留关键语义信息的前提下精简Token序列,成为提升MLLMs效率的关键技术。

本文聚焦于"基于LLM"的视觉Token压缩技术,即利用大语言模型内部信息(如跨模态注意力权重、任务损失梯度)来指导压缩决策。这类方法能够实现任务感知的动态压缩,显著提升压缩效率与语义保真度。同时,为提供完整的技术背景,本文也系统回顾了LLM无关的通用视觉Token压缩方法(如变换下采样、相似度聚类等),作为对比基线。

2.视觉Token压缩发展状况

2.1 发展脉络

起步阶段:聚焦静态图像压缩,以池化、卷积等变换方法为主,通过简单下采样减少Token,保留空间结构但压缩比例固定、灵活性差。

发展阶段:基于相似度、注意力的方法兴起,通过聚类合并相似Token、依据注意力分数剪枝低相关Token,压缩效率提升,但存在语义丢失、注意力偏置问题。

成熟阶段:面向视频时空冗余、长上下文理解,出现时空联合压缩、文本引导压缩、免训练自适应压缩,兼顾语义完整性与极端压缩下的性能稳定性。

前沿阶段:结合语义连通组件、遗传算法、多阶段渐进压缩,实现语义全覆盖、动态适配与全链路效率优化。

2.2 核心技术分类

2.2.1 通用视觉Token压缩

(1)基于变换的压缩

通过池化、卷积、像素重组等数学变换直接减少Token数量。

优势:保留空间结构、计算简单。

局限:压缩比例固定,难以适配不同语义复杂度的图像。

代表:平均池化、卷积下采样、TokenShuffle。

(2)基于相似度的压缩

计算视觉Token之间的特征相似度,通过聚类合并相似Token,消除空间/时间冗余。

优势:灵活适配、无需训练。

局限:过度合并易丢失细节,对运动物体处理不佳。

代表:K-means聚类、ToMe、LLaVA-Scissor中的语义连通组件(SCC)。

注:LLaVA-Scissor虽然应用于MLLM,但其压缩核心(SCC聚类)不依赖LLM,故归入此类。

2.2.2 基于LLM的视觉Token压缩

(1)基于LLM跨模态注意力的压缩

在LLM推理过程中,计算文本Token与视觉Token之间的交叉注意力权重,将低注意力分数的视觉Token剪枝。

优势:任务驱动、可解释性强。

局限:注意力偏置(倾向于保留图像底部/序列后部Token)、与FlashAttention等加速库存在兼容性问题。

代表:DynamicViT(扩展至跨模态)、VisionZip、PoRe(位置重加权修正偏置)。

(2)基于文本引导的压缩

以用户问题或文本指令为条件,仅保留与任务语义相关的视觉Token。文本嵌入可作为查询向量与视觉Token做交叉注意力,或直接计算文本-视觉相似度进行筛选。

优势:信息高度精炼,适配视觉问答、目标检测等任务。

局限:多轮对话需重新压缩,流式场景效率受限。

代表:QG-VTC(问题引导分层压缩)、FlashVLM(文本-视觉相似度筛选)、SparseVLM(文本引导稀疏化)。

3.适配视觉Token压缩的典型LLM/MLLM模型

视觉Token压缩需与LLM主干、视觉编码器深度适配,以下为契合度高的主流模型:

(一)LLaVA系列

同时适配通用压缩(如LLaVA-Scissor的语义连通组件SCC)和基于LLM的压缩(如LLaVA-PruMerge的注意力剪枝)。

压缩类型归属:混合压缩适配模型(两类压缩均可承载)。

(二)FastVLM

其压缩通过FastViTHD编码器的架构性下采样实现,属于静态变换压缩。

压缩类型归属:通用压缩适配模型(LLM无关,基于变换的压缩)。

(三)Glyph模型

将长文本渲染为图像,通过VLM进行Token压缩。压缩模块本身可使用通用方法,但整体流程以LLM为最终消费者,且渲染参数优化可由LLM驱动。

压缩类型归属:基于LLM的压缩适配模型(LLM驱动框架,特殊范式)。

(四)BLIP-3-Video

采用独立时间编码器,将视频帧序列压缩至32个视觉Token,探索多种时间编码器类型(可学习时空池化、Token Turing Machines等)。

压缩类型归属:通用压缩适配模型(LLM无关,基于变换/池化的时域压缩)。

(五)Qwen-VL / Qwen2-VL系列

自身使用MLP进行2×2邻近Token压缩,同时作为适配平台可兼容QG-VTC、V²Drop、ZipR1等基于LLM注意力的动态剪枝方法,能够剪枝50%~75%的视觉Token,保留96%以上的原始性能。

压缩类型归属:混合压缩适配模型(自身含通用压缩模块,同时适配外部基于LLM的压缩方法)。

4.未来发展方向

4.1 视觉Token压缩现存挑战

1.语义完整性与压缩率失衡:极端压缩下易丢失细节,低压缩率则效率提升有限。

2.注意力偏置问题:传统注意力方法倾向保留序列后部/图像底部Token,忽略关键前景信息。

3.场景适配性差:静态图像压缩方法难以适配视频时空动态,通用方法在OCR、细粒度识别任务性能下滑。

4.兼容性与部署难题:部分压缩方法与FlashAttention、KV缓存优化不兼容,端侧部署算力受限。

4.2 发展方向

(一)语义驱动的自适应极端压缩 - 基于语义连通组件、主语义成分分析(PSCA),实现语义全覆盖+动态压缩比例,根据图像复杂度、视频内容自适应调整Token保留率,兼顾极端压缩与语义保真。

(二)全链路多阶段协同压缩 - 突破单模块压缩局限,构建视觉编码器→投影层→LLM预填充/解码全链路渐进压缩,结合粗到精策略,层层精简冗余,降低整体计算复杂度。

(三)LLM原生融合的压缩范式 - 抛弃"先编码再压缩"的独立模块思路,将压缩逻辑融入LLM训练,通过注意力蒸馏、模态预融合,让LLM原生理解压缩Token,如LLaVA-Mini将视觉信息融入文本Token,实现单Token输入。

(四)文本-视觉双向引导压缩 - 结合文本指令语义与视觉特征,实现任务感知动态压缩:文本引导筛选任务相关Token,视觉特征补充全局上下文,解决单模态引导的信息缺失问题。

(五)视频时空联合高效压缩 - 深化时空协同压缩,结合物体跟踪、运动特征建模,精准区分动态物体与静态背景,消除运动场景冗余,同时兼容流式视频实时处理。

(六)硬件友好的轻量化压缩 - 研发免训练、低计算开销的压缩算法,兼容端侧芯片、移动设备,结合量化、剪枝联合优化,实现压缩+轻量化双重效率提升,支撑多模态模型普惠部署。

(七)跨模态统一压缩与评估 - 构建图像、视频、文本统一Token压缩框架,突破模态壁垒;建立标准化评估基准(如UniPruneBench),统一压缩率、性能、延迟评测体系,推动技术迭代。

5.总结

视觉Token压缩是破解多模态大语言模型效率瓶颈的核心技术,已从简单变换、注意力剪枝,演进为语义驱动、时空协同、文本引导的精细化方案。LLaVA系列、FastVLM等模型的适配实践,验证了压缩技术对推理效率的显著提升作用。

未来研究应聚焦于:语义驱动的自适应极端压缩、全链路多阶段协同、LLM原生融合的压缩范式、文本-视觉双向引导、视频时空联合高效压缩、硬件友好的轻量化算法,以及跨模态统一评估基准的构建。基于LLM的视觉Token压缩正从"后处理剪枝"迈向"任务感知、动态适配、原生融合"的新阶段。


总结

  1. 先想清楚"基于LLM"到底指什么

    这个标题的关键词容易"望文生义"。我的理解是:压缩过程是否真的用到了LLM的内部信号(比如注意力分数、文本嵌入、梯度反馈),还是仅仅把LLM当作压缩结果的使用者?这两者差别不小。如果一开始不把这个边界划清楚,正文和标题很容易"各说各话"。

  2. 分类方式决定了综述的骨架

    初期我按"变换---相似度---注意力---文本引导"来分,看起来挺全,但仔细一想,"注意力"里面既有视觉自注意力(跟LLM没啥关系),也有跨模态注意力(确实用了LLM),混在一起会让读者困惑。后来改成"通用压缩(作为背景基线)+ 基于LLM的压缩(作为核心线索)",整个逻辑就顺了。

  3. 介绍模型时,别忘给它贴上"压缩类型"标签

    像LLaVA、FastVLM、Glyph这些模型,读者想知道的不只是"它们能干什么",更想知道"它们属于哪一类压缩"------是LLM无关的,还是LLM驱动的,还是混合型。每个模型用一句话点明归属,比长篇技术罗列更有用。

相关推荐
zhangfeng11331 小时前
ai 模型加密,强化版终极防盗方案 支持烧录的显卡列表
人工智能·pytorch·python
阿里云大数据AI技术1 小时前
逐际动力 x 阿里云 PAI:携手开启具身智能走向物理世界新篇章
人工智能·机器人
半个落月1 小时前
Prompt Engineering 完全指南:从入门到写出高质量提示词
人工智能
小p1 小时前
claude code 工程化学习3: 如何创建一个复杂的 Skill
人工智能
程序大视界1 小时前
【Python系列课程】Python入门教程
开发语言·人工智能·python
ZhengEnCi1 小时前
09b-斯坦福CS336作业一-Transformer语言模型
人工智能
独隅1 小时前
MySQL 接入不同 AI 大模型进行数据管理的全面指南(MySQL + AI)
数据库·人工智能·mysql
ZhengEnCi2 小时前
09abb-SwiGLU激活函数
人工智能
用户521872455652 小时前
spring ai alibaba之项目搭建
人工智能