【第四十九周】论文阅读

文章目录

摘要
Abstract
[一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》](#一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》)
- [1. 摘要](#1. 摘要)
- [2. 主要贡献](#2. 主要贡献)
- [3. 引言](#3. 引言)
- - [3.1 研究背景与现状](#3.1 研究背景与现状)
  - [3.2 现有方案与核心缺陷](#3.2 现有方案与核心缺陷)
  - [3.3 核心观察与整体设计思路](#3.3 核心观察与整体设计思路)
- [4. 方法：DOCPRUNE 完整框架](#4. 方法：DOCPRUNE 完整框架)
- - [4.1 整体流水线架构](#4.1 整体流水线架构)
  - [4.2 模块一：背景 Token 剪枝 BTP（Background Token Pruning）](#4.2 模块一：背景 Token 剪枝 BTP（Background Token Pruning）)
  - [4.3 模块二：问题感知 Token 剪枝 QTP（Question-aware Token Pruning）](#4.3 模块二：问题感知 Token 剪枝 QTP（Question-aware Token Pruning）)
- [5. 相关工作](#5. 相关工作)
- - [5.1 文档理解与文档问答](#5.1 文档理解与文档问答)
  - [5.2 视觉 Token 剪枝 / 压缩](#5.2 视觉 Token 剪枝 / 压缩)
总结

摘要

本周研读论文《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》。该论文针对文档问答任务 Token 冗余、算力开销大的问题，提出无训练渐进式 Token 剪枝框架 DOCPRUNE。框架包含 BTP、QTP、CTP 三大模块，依次剔除背景、无关内容 Token，并依据模型分层理解能力自适应剪枝。实验表明，该方法在不微调模型的前提下，将编码器、解码器吞吐量分别提升 3.0 倍、3.3 倍，同时小幅提升问答精度，兼顾效率与性能。

Abstract

This week, I studied the paper DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning. Aiming at token redundancy and high computational cost in document question answering, the paper proposes a training-free progressive token pruning framework named DOCPRUNE. It consists of three modules: BTP, QTP and CTP, which successively remove background and irrelevant tokens, and perform adaptive pruning based on the model's layer-wise comprehension. Experimental results show that without model fine-tuning, the framework improves the throughput of the encoder and decoder by 3.0× and 3.3× respectively, and slightly boosts the QA accuracy. It achieves a good balance between inference efficiency and model performance.

一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》

1. 摘要

随着多模态大语言模型（MLLMs）快速发展，模型在文档视觉问答、视觉文本定位、检索增强推理等文档理解任务中取得了优异表现。但文档图像与自然图像、视频存在显著差异：文档普遍包含大面积空白背景、页边距、行间距等无语义区域，且支撑答案的有效证据仅稀疏分布在局部位置；长文档、多页文档会生成数千个视觉 Token，导致基于 Transformer 的模型推理算力开销极高、推理吞吐量低下。

当前主流视觉 Token 压缩与剪枝算法大多针对自然图像、视频设计，依靠画面视觉冗余完成 Token 删减，直接迁移至文档任务时，极易破坏文本行、表格、图表等结构化布局与文本连续性，造成问答精度大幅下降。同时，现有剪枝方法均采用固定网络层执行剪枝操作，忽略模型在不同网络层对文档语义的递进理解规律：浅层网络语义表征不成熟、注意力信号可靠性低，中深层网络才能精准捕捉语义关联，固定层剪枝易出现剪枝时机过早或过晚，引发性能不稳定、加速收益受限等问题。

2. 主要贡献

基础理论贡献：挖掘文档专属特征与模型分层理解规律

对文档图像开展定量统计与注意力分析，证实文档存在大面积背景冗余、问答相关内容高度稀疏两大结构特征，明确其与普通图像、视频的视觉冗余模式存在本质区别。

探究 Transformer 网络层间语义理解规律，验证浅层网络注意力信号不可靠，中深层网络才可精准匹配问题与答案的语义关联；提出单网络层最后一个 Token 表征的 L2 范数作为模型分层理解程度的代理指标，可有效量化模型对文档的理解置信度。

从原理层面解释通用视觉剪枝方法无法适配文档任务的核心原因，为文档场景专属加速方案提供理论支撑。
算法创新贡献：设计三模块渐进式 Token 剪枝框架 DOCPRUNE

构建一套无训练、即插即用的流水线剪枝方案，由 BTP、QTP、CTP 三个互补模块串联组成，覆盖检索、视觉编码、解码全流程：

BTP（背景感知剪枝）：精准清除文档无意义背景区域，完整保留文本、表格、图表等前景有效内容；

QTP（问题感知剪枝）：依托特征嵌入相似度，在前景内容中进一步筛选与问题强相关的 Token；

CTP（理解感知剪枝）：摒弃传统固定剪枝层范式，利用模型层间理解度自适应判定剪枝时机，并结合注意力权重完成精细化剪枝。

三模块由粗到细逐层过滤冗余 Token，最大限度保留问答任务所需核心语义信息。
工程与实验贡献：落地性强、泛化性优异的文档加速方案

框架全程无需训练与模型微调，可直接对接 M3DocRAG、VDocRAG 等主流检索增强文档问答流水线，兼容 Qwen2-VL、Qwen2.5-VL 等主流多模态模型，部署成本极低。

在开放域、闭域、长文档、图表、幻灯片、通用文档等多类数据集上完成全面对比实验，相较 FastV、DivPrune、VTW 等前沿剪枝算法，在算力开销、推理吞吐量、问答精度三项核心指标上全面领先。

消融实验、可视化实验、超参敏感性实验充分证明：各模块独立有效、框架鲁棒性强；Token 压缩后不会丢失关键证据，还可优化模型注意力分布，修正原有模型因注意力偏移导致的错误预测。

3. 引言

3.1 研究背景与现状

近年来多模态大语言模型（MLLMs）飞速迭代，在文档视觉问答、视觉文本定位、检索增强推理、长文档理解等任务中表现突出。这类模型摆脱了传统 OCR 提取文本的限制，直接将文档页面作为图像输入，以端到端形式完成视觉与语言联合推理，可完美适配图文混排、表格、图表等复杂文档场景。

但文档理解任务面临严峻的算力瓶颈：

单张文档页面会被切分为数百至数千个视觉 Token，长文档、多页文档会进一步造成 Token 数量爆炸式增长；

文档布局特殊，页边距、段落间距、空白区域占比极高，这类区域无语义信息，却和有效内容共同参与完整的 Transformer 计算；

Transformer 自注意力机制的计算复杂度随 Token 数量呈二次增长，Token 冗余直接导致浮点运算量（TFLOPs）激增、推理吞吐量大幅下降，严重限制模型在实际业务场景中的落地应用。

3.2 现有方案与核心缺陷

当前业界主流加速思路为视觉 Token 剪枝 / 压缩，该技术已在自然图像、视频领域广泛应用，但直接迁移至文档任务会暴露明显短板：

通用图像 / 视频剪枝不兼容文档结构化特征

图像、视频剪枝主要利用相邻区域视觉相似性剔除冗余 Token；而文档属于强结构化数据，文本行、表格单元格、图表位置具备严格空间逻辑。盲目剪枝会破坏文本连续性、打乱布局特征，导致模型丢失关键语义，问答精度显著下滑。

剪枝层依赖人工固定规则

现有剪枝算法均提前指定在某一固定网络层执行剪枝，未考虑模型逐层递进的语义理解过程：

网络浅层：仅提取线条、色块等底层视觉特征，语义关联较弱，注意力权重无法区分有效与无效 Token，此时剪枝等同于随机删减；

网络深层：语义融合完成，注意力可精准定位答案区域，是理想的剪枝节点。

固定层剪枝要么时机过早破坏特征，要么时机过晚丧失加速效果，最终造成性能不稳定、加速收益有限。

3.3 核心观察与整体设计思路

作者通过定量实验、注意力分析总结出三大关键规律，也是 DOCPRUNE 的核心设计依据：

背景区域占据文档大量画面空间，属于首要算力冗余来源；

剔除背景后，问答任务对应的有效内容依旧高度稀疏；

剪枝效果与模型层间理解程度强相关，必须动态决定剪枝时机。

基于以上三点，本文设计三阶段渐进式剪枝方案：从视觉背景、问题语义、模型理解状态三个维度，由粗到细逐层过滤冗余 Token，全程不改动模型结构、不新增训练任务，实现轻量化推理加速。

4. 方法：DOCPRUNE 完整框架

4.1 整体流水线架构

DOCPRUNE 基于主流检索增强文档问答（DocRAG）流水线搭建，全流程分为两大阶段：

检索阶段：输入问题 + 海量文档库 → 检索模型筛选出 Top-K 高相关文档页；

问答推理阶段：问题 + 检索得到的 Top-K 文档 → 多模态问答模型（视觉编码器 + LLM 解码器）生成答案。

三大剪枝模块嵌入全流程，采用由粗到细渐进剪枝逻辑：

检索阶段：启用 BTP（背景 Token 剪枝）；

视觉编码阶段：叠加 BTP + QTP（背景 + 问题感知剪枝）；

LLM 解码阶段：启用 CTP（理解感知 Token 剪枝）。

整体逻辑：先删除背景 → 再过滤无关内容 → 最后根据模型理解状态完成精细化剪枝。

4.2 模块一：背景 Token 剪枝 BTP（Background Token Pruning）

1，模块作用

在图像送入视觉编码器之前，自动识别并剔除纯背景图像块，完整保留文本、表格、图表等前景内容，属于粗粒度剪枝。

2，灰度转换 + 计算背景基准值

将彩色图像块转为灰度图简化背景检测；统计整张图像的像素众数 m，作为标准背景亮度。

3，计算单块背景像素占比

4，阈值过滤，保留前景

Token设置背景判别阈值，仅保留背景像素占比低于阈值的前景 Token

4.3 模块二：问题感知 Token 剪枝 QTP（Question-aware Token Pruning）

1，模块作用

在 BTP 保留的前景 Token 基础上，基于问题语义筛选相关 Token，剔除语义无关的文本、图像区域，属于中粒度剪枝。

2，计算语义相关性分数

对每个文档 Token，计算其与所有问题 Token 的余弦相似度之和，作为 Token 相关性分数

3，分辨率对齐 + 高斯平滑

若检索模型与问答模型的特征图分辨率不一致，使用双线性插值缩放相似度图，完成分辨率匹配；
采用高斯卷积做平滑处理，用于扩大相关区域、消除局部噪声，避免误删邻近的有效 Token。

4，阈值过滤

设置语义相关性阈值，仅保留高分 Token 送入后续视觉编码器：

5. 相关工作

5.1 文档理解与文档问答

传统方案：基于 OCR 提取文本，再结合文本问答模型推理，无法处理表格、图表、复杂图文布局；

现代多模态方案：端到端视觉 - 语言模型，直接将文档作为图像输入，代表模型：LayoutLMv3、InternVL；

检索增强文档 RAG：M3DocRAG、VDocRAG、SV-RAG 等，先检索相关页面再开展推理，是当前长文档理解的主流流水线。

本文聚焦检索增强文档问答场景，针对推理阶段做算力优化。

5.2 视觉 Token 剪枝 / 压缩

图像 / 视频方向：FastV、Token Merging、DynamicViT、SparseVLM 等，依托视觉冗余、固定层剪枝优化通用图像、视频推理；

文档方向：现有专项剪枝工作数量较少，且未结合文档布局、问答语义、模型分层理解三大特性。

本文是首个结合背景、问题、模型理解三重感知的文档专属渐进剪枝框架。

总结

本文针对长文档视觉问答算力开销大、通用剪枝方法不适配文档结构化特征两大痛点，提出 DOCPRUNE 无训练渐进式 Token 剪枝框架：

依托文档背景冗余、内容稀疏、模型分层理解三大特性，设计 BTP、QTP、CTP 三大模块，由粗到细逐层过滤冗余 Token；
摒弃传统固定剪枝层模式，利用 Token L2 范数量化模型理解程度，自适应选择剪枝时机，兼顾推理稳定性与加速效果；
框架即插即用、无需额外训练，在多模型、多数据集上验证：可大幅降低计算开销、实现推理速度翻倍，同时提升问答精度。