【第四十九周】论文阅读

文章目录

  • 摘要
  • Abstract
  • [一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》](#一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》)
    • [1. 摘要](#1. 摘要)
    • [2. 主要贡献](#2. 主要贡献)
    • [3. 引言](#3. 引言)
      • [3.1 研究背景与现状](#3.1 研究背景与现状)
      • [3.2 现有方案与核心缺陷](#3.2 现有方案与核心缺陷)
      • [3.3 核心观察与整体设计思路](#3.3 核心观察与整体设计思路)
    • [4. 方法:DOCPRUNE 完整框架](#4. 方法:DOCPRUNE 完整框架)
      • [4.1 整体流水线架构](#4.1 整体流水线架构)
      • [4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning)](#4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning))
      • [4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning)](#4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning))
    • [5. 相关工作](#5. 相关工作)
      • [5.1 文档理解与文档问答](#5.1 文档理解与文档问答)
      • [5.2 视觉 Token 剪枝 / 压缩](#5.2 视觉 Token 剪枝 / 压缩)
  • 总结

摘要

本周研读论文《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》。该论文针对文档问答任务 Token 冗余、算力开销大的问题,提出无训练渐进式 Token 剪枝框架 DOCPRUNE。框架包含 BTP、QTP、CTP 三大模块,依次剔除背景、无关内容 Token,并依据模型分层理解能力自适应剪枝。实验表明,该方法在不微调模型的前提下,将编码器、解码器吞吐量分别提升 3.0 倍、3.3 倍,同时小幅提升问答精度,兼顾效率与性能。


Abstract

This week, I studied the paper DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning. Aiming at token redundancy and high computational cost in document question answering, the paper proposes a training-free progressive token pruning framework named DOCPRUNE. It consists of three modules: BTP, QTP and CTP, which successively remove background and irrelevant tokens, and perform adaptive pruning based on the model's layer-wise comprehension. Experimental results show that without model fine-tuning, the framework improves the throughput of the encoder and decoder by 3.0× and 3.3× respectively, and slightly boosts the QA accuracy. It achieves a good balance between inference efficiency and model performance.


一、《DOCPRUNE: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning》

1. 摘要

随着多模态大语言模型(MLLMs)快速发展,模型在文档视觉问答、视觉文本定位、检索增强推理等文档理解任务中取得了优异表现。但文档图像与自然图像、视频存在显著差异:文档普遍包含大面积空白背景、页边距、行间距等无语义区域,且支撑答案的有效证据仅稀疏分布在局部位置;长文档、多页文档会生成数千个视觉 Token,导致基于 Transformer 的模型推理算力开销极高、推理吞吐量低下。

当前主流视觉 Token 压缩与剪枝算法大多针对自然图像、视频设计,依靠画面视觉冗余完成 Token 删减,直接迁移至文档任务时,极易破坏文本行、表格、图表等结构化布局与文本连续性,造成问答精度大幅下降。同时,现有剪枝方法均采用固定网络层执行剪枝操作,忽略模型在不同网络层对文档语义的递进理解规律:浅层网络语义表征不成熟、注意力信号可靠性低,中深层网络才能精准捕捉语义关联,固定层剪枝易出现剪枝时机过早或过晚,引发性能不稳定、加速收益受限等问题。

2. 主要贡献

  1. 基础理论贡献:挖掘文档专属特征与模型分层理解规律

    对文档图像开展定量统计与注意力分析,证实文档存在大面积背景冗余、问答相关内容高度稀疏两大结构特征,明确其与普通图像、视频的视觉冗余模式存在本质区别。

    探究 Transformer 网络层间语义理解规律,验证浅层网络注意力信号不可靠,中深层网络才可精准匹配问题与答案的语义关联;提出单网络层最后一个 Token 表征的 L2 范数作为模型分层理解程度的代理指标,可有效量化模型对文档的理解置信度。

    从原理层面解释通用视觉剪枝方法无法适配文档任务的核心原因,为文档场景专属加速方案提供理论支撑。

  2. 算法创新贡献:设计三模块渐进式 Token 剪枝框架 DOCPRUNE

    构建一套无训练、即插即用的流水线剪枝方案,由 BTP、QTP、CTP 三个互补模块串联组成,覆盖检索、视觉编码、解码全流程:

    BTP(背景感知剪枝):精准清除文档无意义背景区域,完整保留文本、表格、图表等前景有效内容;

    QTP(问题感知剪枝):依托特征嵌入相似度,在前景内容中进一步筛选与问题强相关的 Token;

    CTP(理解感知剪枝):摒弃传统固定剪枝层范式,利用模型层间理解度自适应判定剪枝时机,并结合注意力权重完成精细化剪枝。

    三模块由粗到细逐层过滤冗余 Token,最大限度保留问答任务所需核心语义信息。

  3. 工程与实验贡献:落地性强、泛化性优异的文档加速方案

    框架全程无需训练与模型微调,可直接对接 M3DocRAG、VDocRAG 等主流检索增强文档问答流水线,兼容 Qwen2-VL、Qwen2.5-VL 等主流多模态模型,部署成本极低。

    在开放域、闭域、长文档、图表、幻灯片、通用文档等多类数据集上完成全面对比实验,相较 FastV、DivPrune、VTW 等前沿剪枝算法,在算力开销、推理吞吐量、问答精度三项核心指标上全面领先。

    消融实验、可视化实验、超参敏感性实验充分证明:各模块独立有效、框架鲁棒性强;Token 压缩后不会丢失关键证据,还可优化模型注意力分布,修正原有模型因注意力偏移导致的错误预测。

3. 引言

3.1 研究背景与现状

近年来多模态大语言模型(MLLMs)飞速迭代,在文档视觉问答、视觉文本定位、检索增强推理、长文档理解等任务中表现突出。这类模型摆脱了传统 OCR 提取文本的限制,直接将文档页面作为图像输入,以端到端形式完成视觉与语言联合推理,可完美适配图文混排、表格、图表等复杂文档场景。

但文档理解任务面临严峻的算力瓶颈:

单张文档页面会被切分为数百至数千个视觉 Token,长文档、多页文档会进一步造成 Token 数量爆炸式增长;

文档布局特殊,页边距、段落间距、空白区域占比极高,这类区域无语义信息,却和有效内容共同参与完整的 Transformer 计算;

Transformer 自注意力机制的计算复杂度随 Token 数量呈二次增长,Token 冗余直接导致浮点运算量(TFLOPs)激增、推理吞吐量大幅下降,严重限制模型在实际业务场景中的落地应用。

3.2 现有方案与核心缺陷

当前业界主流加速思路为视觉 Token 剪枝 / 压缩,该技术已在自然图像、视频领域广泛应用,但直接迁移至文档任务会暴露明显短板:

通用图像 / 视频剪枝不兼容文档结构化特征

图像、视频剪枝主要利用相邻区域视觉相似性剔除冗余 Token;而文档属于强结构化数据,文本行、表格单元格、图表位置具备严格空间逻辑。盲目剪枝会破坏文本连续性、打乱布局特征,导致模型丢失关键语义,问答精度显著下滑。

剪枝层依赖人工固定规则

现有剪枝算法均提前指定在某一固定网络层执行剪枝,未考虑模型逐层递进的语义理解过程:

网络浅层:仅提取线条、色块等底层视觉特征,语义关联较弱,注意力权重无法区分有效与无效 Token,此时剪枝等同于随机删减;

网络深层:语义融合完成,注意力可精准定位答案区域,是理想的剪枝节点。

固定层剪枝要么时机过早破坏特征,要么时机过晚丧失加速效果,最终造成性能不稳定、加速收益有限。

3.3 核心观察与整体设计思路

作者通过定量实验、注意力分析总结出三大关键规律,也是 DOCPRUNE 的核心设计依据:

背景区域占据文档大量画面空间,属于首要算力冗余来源;

剔除背景后,问答任务对应的有效内容依旧高度稀疏;

剪枝效果与模型层间理解程度强相关,必须动态决定剪枝时机。

基于以上三点,本文设计三阶段渐进式剪枝方案:从视觉背景、问题语义、模型理解状态三个维度,由粗到细逐层过滤冗余 Token,全程不改动模型结构、不新增训练任务,实现轻量化推理加速。

4. 方法:DOCPRUNE 完整框架

4.1 整体流水线架构

DOCPRUNE 基于主流检索增强文档问答(DocRAG) 流水线搭建,全流程分为两大阶段:

检索阶段:输入问题 + 海量文档库 → 检索模型筛选出 Top-K 高相关文档页;

问答推理阶段:问题 + 检索得到的 Top-K 文档 → 多模态问答模型(视觉编码器 + LLM 解码器)生成答案。

三大剪枝模块嵌入全流程,采用由粗到细渐进剪枝逻辑:

检索阶段:启用 BTP(背景 Token 剪枝);

视觉编码阶段:叠加 BTP + QTP(背景 + 问题感知剪枝);

LLM 解码阶段:启用 CTP(理解感知 Token 剪枝)。

整体逻辑:先删除背景 → 再过滤无关内容 → 最后根据模型理解状态完成精细化剪枝。

4.2 模块一:背景 Token 剪枝 BTP(Background Token Pruning)

1,模块作用

在图像送入视觉编码器之前,自动识别并剔除纯背景图像块,完整保留文本、表格、图表等前景内容,属于粗粒度剪枝。

2,灰度转换 + 计算背景基准值

将彩色图像块转为灰度图简化背景检测;统计整张图像的像素众数 m,作为标准背景亮度。

3,计算单块背景像素占比

4,阈值过滤,保留前景

Token设置背景判别阈值,仅保留背景像素占比低于阈值的前景 Token

4.3 模块二:问题感知 Token 剪枝 QTP(Question-aware Token Pruning)

1,模块作用

在 BTP 保留的前景 Token 基础上,基于问题语义筛选相关 Token,剔除语义无关的文本、图像区域,属于中粒度剪枝。

2,计算语义相关性分数

对每个文档 Token,计算其与所有问题 Token 的余弦相似度之和,作为 Token 相关性分数

3,分辨率对齐 + 高斯平滑

  • 若检索模型与问答模型的特征图分辨率不一致,使用双线性插值缩放相似度图,完成分辨率匹配;
  • 采用高斯卷积做平滑处理,用于扩大相关区域、消除局部噪声,避免误删邻近的有效 Token。

4,阈值过滤

设置语义相关性阈值,仅保留高分 Token 送入后续视觉编码器:

5. 相关工作

5.1 文档理解与文档问答

传统方案:基于 OCR 提取文本,再结合文本问答模型推理,无法处理表格、图表、复杂图文布局;

现代多模态方案:端到端视觉 - 语言模型,直接将文档作为图像输入,代表模型:LayoutLMv3、InternVL;

检索增强文档 RAG:M3DocRAG、VDocRAG、SV-RAG 等,先检索相关页面再开展推理,是当前长文档理解的主流流水线。

本文聚焦检索增强文档问答场景,针对推理阶段做算力优化。

5.2 视觉 Token 剪枝 / 压缩

图像 / 视频方向:FastV、Token Merging、DynamicViT、SparseVLM 等,依托视觉冗余、固定层剪枝优化通用图像、视频推理;

文档方向:现有专项剪枝工作数量较少,且未结合文档布局、问答语义、模型分层理解三大特性。

本文是首个结合背景、问题、模型理解三重感知的文档专属渐进剪枝框架。


总结

本文针对长文档视觉问答算力开销大、通用剪枝方法不适配文档结构化特征两大痛点,提出 DOCPRUNE 无训练渐进式 Token 剪枝框架:

  • 依托文档背景冗余、内容稀疏、模型分层理解三大特性,设计 BTP、QTP、CTP 三大模块,由粗到细逐层过滤冗余 Token;
  • 摒弃传统固定剪枝层模式,利用 Token L2 范数量化模型理解程度,自适应选择剪枝时机,兼顾推理稳定性与加速效果;
  • 框架即插即用、无需额外训练,在多模型、多数据集上验证:可大幅降低计算开销、实现推理速度翻倍,同时提升问答精度。
相关推荐
Biomamba生信基地5 小时前
NC | 单细胞分析揭示头颈部癌早期转移过程中潜在的免疫逃逸机制(R语言版本)
论文阅读·生物信息学·单细胞rna测序
大模型最新论文速读5 小时前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
小马哥crazymxm6 小时前
Arxiv论文周选 (2026-W24)
论文阅读·人工智能·考研
大模型最新论文速读10 小时前
TRUST:RL 时保留模型的不确定性,效果提升 8%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
大模型最新论文速读1 天前
06-11 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Biomamba生信基地3 天前
空间图谱+注释工具= 《ADVANCED SCIENCE》
论文阅读·生物信息学·单细胞分析·空间转录组·细胞图谱
c7693 天前
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional Coevolution
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
StfinnWu4 天前
论文阅读:Spatial Frequency Modulation Network for EfficientImage Dehazing
论文阅读
Rocky Ding*4 天前
Token Merging for Fast Stable Diffusion:一篇读懂 Stable Diffusion 的免训练加速机制
论文阅读·人工智能·深度学习·机器学习·stable diffusion·aigc·ai-native