文章目录
- 摘要
- Abstract
- [一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》](#一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》)
-
- [1. 摘要](#1. 摘要)
- [2. 主要贡献](#2. 主要贡献)
- [3. 引言](#3. 引言)
-
- [3.1 研究背景与现状](#3.1 研究背景与现状)
- [3.2 现有方案与核心缺陷](#3.2 现有方案与核心缺陷)
- [3.3 核心观察与整体设计思路](#3.3 核心观察与整体设计思路)
- [4. 方法:DOCPRUNE 完整框架](#4. 方法:DOCPRUNE 完整框架)
-
- [4.1 整体流水线架构](#4.1 整体流水线架构)
- [4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning)](#4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning))
- [4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning)](#4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning))
- [5. 相关工作](#5. 相关工作)
-
- [5.1 文档理解与文档问答](#5.1 文档理解与文档问答)
- [5.2 视觉 Token 剪枝 / 压缩](#5.2 视觉 Token 剪枝 / 压缩)
- 总结
摘要
本周研读论文《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》。该论文针对文档问答任务 Token 冗余、算力开销大的问题,提出无训练渐进式 Token 剪枝框架 DOCPRUNE。框架包含 BTP、QTP、CTP 三大模块,依次剔除背景、无关内容 Token,并依据模型分层理解能力自适应剪枝。实验表明,该方法在不微调模型的前提下,将编码器、解码器吞吐量分别提升 3.0 倍、3.3 倍,同时小幅提升问答精度,兼顾效率与性能。
Abstract
This week, I studied the paper DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning. Aiming at token redundancy and high computational cost in document question answering, the paper proposes a training-free progressive token pruning framework named DOCPRUNE. It consists of three modules: BTP, QTP and CTP, which successively remove background and irrelevant tokens, and perform adaptive pruning based on the model's layer-wise comprehension. Experimental results show that without model fine-tuning, the framework improves the throughput of the encoder and decoder by 3.0× and 3.3× respectively, and slightly boosts the QA accuracy. It achieves a good balance between inference efficiency and model performance.
一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》
1. 摘要
随着多模态大语言模型(MLLMs)快速发展,模型在文档视觉问答、视觉文本定位、检索增强推理等文档理解任务中取得了优异表现。但文档图像与自然图像、视频存在显著差异:文档普遍包含大面积空白背景、页边距、行间距等无语义区域,且支撑答案的有效证据仅稀疏分布在局部位置;长文档、多页文档会生成数千个视觉 Token,导致基于 Transformer 的模型推理算力开销极高、推理吞吐量低下。
当前主流视觉 Token 压缩与剪枝算法大多针对自然图像、视频设计,依靠画面视觉冗余完成 Token 删减,直接迁移至文档任务时,极易破坏文本行、表格、图表等结构化布局与文本连续性,造成问答精度大幅下降。同时,现有剪枝方法均采用固定网络层执行剪枝操作,忽略模型在不同网络层对文档语义的递进理解规律:浅层网络语义表征不成熟、注意力信号可靠性低,中深层网络才能精准捕捉语义关联,固定层剪枝易出现剪枝时机过早或过晚,引发性能不稳定、加速收益受限等问题。
2. 主要贡献
-
基础理论贡献:挖掘文档专属特征与模型分层理解规律
对文档图像开展定量统计与注意力分析,证实文档存在大面积背景冗余、问答相关内容高度稀疏两大结构特征,明确其与普通图像、视频的视觉冗余模式存在本质区别。
探究 Transformer 网络层间语义理解规律,验证浅层网络注意力信号不可靠,中深层网络才可精准匹配问题与答案的语义关联;提出单网络层最后一个 Token 表征的 L2 范数作为模型分层理解程度的代理指标,可有效量化模型对文档的理解置信度。
从原理层面解释通用视觉剪枝方法无法适配文档任务的核心原因,为文档场景专属加速方案提供理论支撑。
-
算法创新贡献:设计三模块渐进式 Token 剪枝框架 DOCPRUNE
构建一套无训练、即插即用的流水线剪枝方案,由 BTP、QTP、CTP 三个互补模块串联组成,覆盖检索、视觉编码、解码全流程:
BTP(背景感知剪枝):精准清除文档无意义背景区域,完整保留文本、表格、图表等前景有效内容;
QTP(问题感知剪枝):依托特征嵌入相似度,在前景内容中进一步筛选与问题强相关的 Token;
CTP(理解感知剪枝):摒弃传统固定剪枝层范式,利用模型层间理解度自适应判定剪枝时机,并结合注意力权重完成精细化剪枝。
三模块由粗到细逐层过滤冗余 Token,最大限度保留问答任务所需核心语义信息。
-
工程与实验贡献:落地性强、泛化性优异的文档加速方案
框架全程无需训练与模型微调,可直接对接 M3DocRAG、VDocRAG 等主流检索增强文档问答流水线,兼容 Qwen2-VL、Qwen2.5-VL 等主流多模态模型,部署成本极低。
在开放域、闭域、长文档、图表、幻灯片、通用文档等多类数据集上完成全面对比实验,相较 FastV、DivPrune、VTW 等前沿剪枝算法,在算力开销、推理吞吐量、问答精度三项核心指标上全面领先。
消融实验、可视化实验、超参敏感性实验充分证明:各模块独立有效、框架鲁棒性强;Token 压缩后不会丢失关键证据,还可优化模型注意力分布,修正原有模型因注意力偏移导致的错误预测。
3. 引言
3.1 研究背景与现状
近年来多模态大语言模型(MLLMs)飞速迭代,在文档视觉问答、视觉文本定位、检索增强推理、长文档理解等任务中表现突出。这类模型摆脱了传统 OCR 提取文本的限制,直接将文档页面作为图像输入,以端到端形式完成视觉与语言联合推理,可完美适配图文混排、表格、图表等复杂文档场景。
但文档理解任务面临严峻的算力瓶颈:
单张文档页面会被切分为数百至数千个视觉 Token,长文档、多页文档会进一步造成 Token 数量爆炸式增长;
文档布局特殊,页边距、段落间距、空白区域占比极高,这类区域无语义信息,却和有效内容共同参与完整的 Transformer 计算;
Transformer 自注意力机制的计算复杂度随 Token 数量呈二次增长,Token 冗余直接导致浮点运算量(TFLOPs)激增、推理吞吐量大幅下降,严重限制模型在实际业务场景中的落地应用。
3.2 现有方案与核心缺陷
当前业界主流加速思路为视觉 Token 剪枝 / 压缩,该技术已在自然图像、视频领域广泛应用,但直接迁移至文档任务会暴露明显短板:
通用图像 / 视频剪枝不兼容文档结构化特征
图像、视频剪枝主要利用相邻区域视觉相似性剔除冗余 Token;而文档属于强结构化数据,文本行、表格单元格、图表位置具备严格空间逻辑。盲目剪枝会破坏文本连续性、打乱布局特征,导致模型丢失关键语义,问答精度显著下滑。
剪枝层依赖人工固定规则
现有剪枝算法均提前指定在某一固定网络层执行剪枝,未考虑模型逐层递进的语义理解过程:
网络浅层:仅提取线条、色块等底层视觉特征,语义关联较弱,注意力权重无法区分有效与无效 Token,此时剪枝等同于随机删减;
网络深层:语义融合完成,注意力可精准定位答案区域,是理想的剪枝节点。
固定层剪枝要么时机过早破坏特征,要么时机过晚丧失加速效果,最终造成性能不稳定、加速收益有限。
3.3 核心观察与整体设计思路
作者通过定量实验、注意力分析总结出三大关键规律,也是 DOCPRUNE 的核心设计依据:
背景区域占据文档大量画面空间,属于首要算力冗余来源;
剔除背景后,问答任务对应的有效内容依旧高度稀疏;
剪枝效果与模型层间理解程度强相关,必须动态决定剪枝时机。
基于以上三点,本文设计三阶段渐进式剪枝方案:从视觉背景、问题语义、模型理解状态三个维度,由粗到细逐层过滤冗余 Token,全程不改动模型结构、不新增训练任务,实现轻量化推理加速。
4. 方法:DOCPRUNE 完整框架
4.1 整体流水线架构
DOCPRUNE 基于主流检索增强文档问答(DocRAG) 流水线搭建,全流程分为两大阶段:
检索阶段:输入问题 + 海量文档库 → 检索模型筛选出 Top-K 高相关文档页;
问答推理阶段:问题 + 检索得到的 Top-K 文档 → 多模态问答模型(视觉编码器 + LLM 解码器)生成答案。
三大剪枝模块嵌入全流程,采用由粗到细渐进剪枝逻辑:
检索阶段:启用 BTP(背景 Token 剪枝);
视觉编码阶段:叠加 BTP + QTP(背景 + 问题感知剪枝);
LLM 解码阶段:启用 CTP(理解感知 Token 剪枝)。
整体逻辑:先删除背景 → 再过滤无关内容 → 最后根据模型理解状态完成精细化剪枝。
4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning)
1,模块作用
在图像送入视觉编码器之前,自动识别并剔除纯背景图像块,完整保留文本、表格、图表等前景内容,属于粗粒度剪枝。
2,灰度转换 + 计算背景基准值
将彩色图像块转为灰度图简化背景检测;统计整张图像的像素众数 m,作为标准背景亮度。
3,计算单块背景像素占比
4,阈值过滤,保留前景
Token设置背景判别阈值,仅保留背景像素占比低于阈值的前景 Token
4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning)
1,模块作用
在 BTP 保留的前景 Token 基础上,基于问题语义筛选相关 Token,剔除语义无关的文本、图像区域,属于中粒度剪枝。
2,计算语义相关性分数
对每个文档 Token,计算其与所有问题 Token 的余弦相似度之和,作为 Token 相关性分数
3,分辨率对齐 + 高斯平滑
- 若检索模型与问答模型的特征图分辨率不一致,使用双线性插值缩放相似度图,完成分辨率匹配;
- 采用高斯卷积做平滑处理,用于扩大相关区域、消除局部噪声,避免误删邻近的有效 Token。
4,阈值过滤
设置语义相关性阈值,仅保留高分 Token 送入后续视觉编码器:
5. 相关工作
5.1 文档理解与文档问答
传统方案:基于 OCR 提取文本,再结合文本问答模型推理,无法处理表格、图表、复杂图文布局;
现代多模态方案:端到端视觉 - 语言模型,直接将文档作为图像输入,代表模型:LayoutLMv3、InternVL;
检索增强文档 RAG:M3DocRAG、VDocRAG、SV-RAG 等,先检索相关页面再开展推理,是当前长文档理解的主流流水线。
本文聚焦检索增强文档问答场景,针对推理阶段做算力优化。
5.2 视觉 Token 剪枝 / 压缩
图像 / 视频方向:FastV、Token Merging、DynamicViT、SparseVLM 等,依托视觉冗余、固定层剪枝优化通用图像、视频推理;
文档方向:现有专项剪枝工作数量较少,且未结合文档布局、问答语义、模型分层理解三大特性。
本文是首个结合背景、问题、模型理解三重感知的文档专属渐进剪枝框架。
总结
本文针对长文档视觉问答算力开销大、通用剪枝方法不适配文档结构化特征两大痛点,提出 DOCPRUNE 无训练渐进式 Token 剪枝框架:
- 依托文档背景冗余、内容稀疏、模型分层理解三大特性,设计 BTP、QTP、CTP 三大模块,由粗到细逐层过滤冗余 Token;
- 摒弃传统固定剪枝层模式,利用 Token L2 范数量化模型理解程度,自适应选择剪枝时机,兼顾推理稳定性与加速效果;
- 框架即插即用、无需额外训练,在多模型、多数据集上验证:可大幅降低计算开销、实现推理速度翻倍,同时提升问答精度。