【第四十八周】论文阅读

文章目录

摘要
Abstract
[一、《Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding》学习](#一、《Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding》学习)
- [1. 摘要](#1. 摘要)
- [2. 引言](#2. 引言)
- - [2.1 研究背景与问题介绍](#2.1 研究背景与问题介绍)
  - [2.2 主要研究贡献](#2.2 主要研究贡献)
- [3. 核心方法：DSTP 框架](#3. 核心方法：DSTP 框架)
- [4. 实验设置与实验结果](#4. 实验设置与实验结果)
总结

摘要

本周针对多模态大模型中视觉 Token 剪枝在复杂视觉推理任务上失效的问题展开研究。研究发现 ** 相关视觉信息偏移 (RVIS)** 是该问题的核心成因，并提出无需训练、可即插即用的 DSTP 框架。该框架通过偏移检测与上下文感知 Token 交换两大模块，在解码阶段动态调整视觉 Token，有效适配推理过程中变化的视觉信息需求。大量实验证明，DSTP 能显著修复剪枝带来的性能损失，在各类任务与模型上具备优异的通用性，且仅产生极小的计算开销。

Abstract

This week investigates the failure of visual token pruning in complex visual reasoning tasks for Multimodal Large Language Models (MLLMs). It identifies Relevant Visual Information Shift (RVIS) as the fundamental cause. A training-free and plug-and-play framework named DSTP is proposed. Equipped with shift detection and context-aware token swap modules, DSTP dynamically adjusts visual tokens during the decoding phase to adapt to changing visual information requirements in reasoning. Extensive experiments verify that DSTP effectively recovers the performance degradation caused by pruning. It achieves strong generalization across diverse tasks and models with negligible computational overhead.

一、《Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding》学习

1. 摘要

现有视觉 Token 剪枝技术可减少 MLLM 的视觉 Token 数量，降低计算与内存开销，在简单视觉理解任务上表现稳定，但在复杂视觉推理任务中性能大幅下降。本文发现解码阶段的相关视觉信息偏移（RVIS）是剪枝方法失效的核心原因，并提出解码阶段感知偏移的 Token 剪枝框架 DSTP。该框架无需额外训练，可作为插件适配现有剪枝算法，有效应对 RVIS 问题。大量实验表明，DSTP 能显著缓解剪枝带来的性能衰减，在视觉推理、视觉理解任务上均取得提升，且计算开销极小，具备良好通用性。

2. 引言

2.1 研究背景与问题介绍

1，现有技术痛点

MLLM 依赖视觉编码器生成海量视觉 Token，推理成本高，因此视觉 Token 剪枝成为主流优化方案。传统剪枝方法基于预填充阶段的注意力权重筛选保留 Token，在物体识别、简单 VQA 等基础视觉理解任务中效果良好。

2，核心问题

随着 MLLM 向复杂视觉推理（视觉数学、逻辑谜题、STEM 任务）发展，现有静态剪枝方法缺陷凸显：推理过程中模型的视觉关注区域会动态变化，而静态剪枝永久丢弃预填充阶段判定的冗余 Token，无法匹配推理过程中持续变化的视觉信息需求，最终导致推理性能断崖式下跌。

3，核心现象定义

相关视觉信息偏移（RVIS）：MLLM 解码生成过程中，模型的视觉关注区域不断切换，不同推理步骤需要依赖图像中不同区域的视觉线索；该现象是复杂视觉推理的固有特征，简单视觉理解任务几乎不存在 RVIS。

2.2 主要研究贡献

1，机理发现：首次明确RVIS是传统静态视觉 Token 剪枝在复杂视觉推理任务中失效的根本原因，并通过量化实验、注意力可视化验证了 RVIS 的存在、特性及负面影响。

2，方法创新：提出DSTP（解码阶段感知偏移的 Token 剪枝），一款无训练、即插即用的辅助框架，配套设计 RISD、CPTS 两大模块适配 RVIS。

3，实验验证：充分证明 DSTP 可兼容 FastV、DivPrune、VisionZip 等主流剪枝算法与多款主流 MLLM；在大幅修复推理性能的同时，仅引入极低计算开销，兼顾效率与精度。

3. 核心方法：DSTP 框架

DSTP 基于现有静态剪枝方法改造，分为预填充阶段和解码阶段，包含两大核心模块。

整体前置流程（预填充阶段）
沿用传统剪枝逻辑：
依据预填充阶段注意力权重筛选 Top-K 关键视觉 Token，得到剪枝后的 Token 集；
保留被丢弃的视觉 Token（备用），为后续动态调取做准备。
模块一：RISD 相关视觉信息偏移检测
以预填充阶段的注意力分布为基准锚点；
解码每一步实时计算当前视觉注意力与锚点的余弦相似度；
设定固定阈值，当相似度低于阈值时，判定发生 RVIS，触发 CPTS 模块。
模块二：CPTS 上下文保留型视觉 Token 交换
解决直接替换 Token 造成的上下文断裂问题：
重新评估权重：结合当前文本查询，对 ** 全部视觉 Token（含备用 Token）** 重新计算重要性；
融合而非全替换：将原有保留 Token 与新筛选的关键 Token 做并集，维持图像全局上下文；
限时动态生效：融合后的 Token 集仅持续固定解码步数，到期自动恢复为初始剪枝 Token 集，控制计算开销。

4. 实验设置与实验结果

实验配置
基础模型：Qwen3-VL-4B、InternVL3.5-8B 两款主流多模态大模型；
对比剪枝算法：FastV、DivPrune、VisionZip；
任务数据集
视觉推理：MathVerse、WeMath、DynaMath（视觉数学）、LogicVista、MMMU-Pro（逻辑 / 专业推理）；
视觉理解：SQA、GQA、VQAᵀ（通用视觉问答）；
剪枝比例：保留 33.3%、22.2% 视觉 Token（高压缩率）。
核心实验结论
视觉推理任务
传统剪枝方法在高压缩率下性能损失严重；接入 DSTP 后，推理准确率大幅回升，在视觉信息密集的任务（MathVerse、MMMU-Pro）提升尤为明显。
视觉理解任务
简单 VQA 任务 RVIS 少，传统剪枝本身性能稳定，DSTP 仍可进一步小幅提升精度。
模块消融实验
固定阈值的 RISD 检测效果优于随机触发、动态均值阈值；
CPTS 的融合策略远优于直接丢弃旧 Token、简单合并 Token 等方案，兼顾上下文与精度。
效率分析
计算量（TFLOPs）：DSTP 额外浮点运算极少，基本保留剪枝的加速优势；
推理时延 / 显存：相比原剪枝方法时延小幅上升，但远优于原始全 Token 模型；同时可减少冗余生成 Token，端到端推理效率优秀。
泛化性
DSTP 可适配思考型 MLLM、更大参数量 MLLM，跨架构、跨算法通用性强。
超参数分析
上下文持续时长L：数值过低会导致推理逻辑断裂，过高增加开销，中等取值性价比最优；
检测阈值τ：阈值过低漏检 RVIS，过高频繁触发 Token 交换、降低效率，需取适中值。

总结

本质问题：传统静态视觉 Token 剪枝与复杂推理任务固有的RVIS存在天然冲突，是性能下降的核心；

方案亮点：DSTP 作为无训练插件，通过 "检测 + 动态融合 Token" 的思路，低成本解决 RVIS 问题；

应用价值：在保证 MLLM 推理加速的前提下，补齐复杂视觉推理能力，更贴合实际落地场景需求。