字节:早阶段视觉令牌剪枝EvoPrune

📖标题:EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

🌐来源:arXiv, 2603.03681v1

🌟摘要

多模态大语言模型(MLLM)在视觉-语言任务中表现出了强大的性能,但其推理效率受到高分辨率图像和视频等复杂场景中视觉标记指数级增长的严重限制。现有的视觉标记剪枝方法主要在视觉编码之后运行,忽略了编码阶段产生的大量计算成本。为了解决这个问题,我们提出了EvoPrune,这是一种针对MLLM的早期视觉标记剪枝方法,在视觉编码期间直接执行剪枝。具体来说,EvoPrune采用了由标记相似性、多样性和基于注意力的重要性指导的分层剪枝策略,以在选定的编码层保留最具信息性的视觉标记。图像和视频基准测试的广泛实验验证了EvoPrune的有效性。特别是,在VideoMME数据集上,EvoPrune实现了2倍的推理加速,性能下降不到1%,展示了其对延迟敏感的MLLM部署的潜力。

🛎️文章简介

🔸研究问题:如何在多模态大语言模型(MLLMs)中高效减少高分辨率图像和视频带来的视觉令牌爆炸问题,同时避免现有方法仅在视觉编码后剪枝导致的编码阶段计算瓶颈?

🔸主要贡献:论文提出EvoPrune,首个在视觉编码器内部、前向传播过程中即进行分层引导式视觉令牌剪枝的方法,实现端到端推理加速与信息保留的统一。

📝重点思路

🔸设计早阶段剪枝范式,将令牌合并操作嵌入视觉编码器的多个Transformer层中,而非仅在编码完成之后。

🔸采用层-wise剪枝预算分配策略,支持灵活配置各层剪枝数量(如Skip、First、Last等模式),并实证选择交替层(Skip)为最优方案。

🔸提出三因素融合的打分机制:基于余弦相似度的语义吸引项、基于局部密度估计的多样性惩罚项、以及基于多头注意力权重平均的重要性保留项。

🔸引入临界令牌比(CTR)动态保护高重要性令牌,通过设置负无穷权重禁止其参与合并,确保关键视觉-语义信息不被破坏。

🔸采用二部图软匹配策略,在token分组间定向筛选合并对,兼顾结构一致性与计算可控性。

🔎分析总结

🔸在VideoMME上实现2×端到端加速且性能下降<1%,显著优于所有基线方法,验证早阶段剪枝对视频理解任务的强适配性。

🔸消融实验表明,同时移除注意力保留与多样性惩罚会导致平均准确率下降1.8个百分点,证明二者互补且不可或缺。

🔸相比基线方法(如FasterVLM、VisPruner),EvoPrune在视觉编码阶段即获得1.8×加速,中间模块5×加速,LLM阶段约2×加速,全面缓解全链路瓶颈。

🔸在极端压缩下(90.5%令牌削减),仍保持95.8%相对准确率,说明其在高压缩率下具备鲁棒的信息保留能力。

🔸Skip策略在精度-延迟权衡中表现最优,既避免早期过度剪枝导致特征坍塌,又防止晚期集中剪枝带来计算冗余。

💡个人观点

论文将剪枝视为编码过程的一部分,从根源上削减计算负载;其多准则打分机制兼具可解释性与有效性,无需微调、即插即用,为MLLM边缘部署提供了切实可行的技术路径。

🧩附录


相关推荐
小江的记录本4 分钟前
【AI大模型选型指南】《2026年5月(最新版)国内外主流AI大模型选型指南》(企业版)
前端·人工智能·后端·ai作画·aigc·ai编程·ai写作
北京华盛恒辉软件开发公司18 分钟前
大模型运维深远海漂浮式风电系统已融合人工智能AI软件平台
运维·人工智能
HIT_Weston8 分钟前
82、【Agent】【OpenCode】bash 工具提示词(amend 风险)
人工智能·agent·opencode
阿福聊编程10 分钟前
Data-Analysis-Agent:用自然语言查数据库的开源 AI 数据分析工具
数据库·人工智能
Promise微笑13 分钟前
Geo专家于磊:Json-LD优化实战SOP与双核四驱体系
大数据·人工智能·重构·json
金智维科技官方17 分钟前
金智维入选中国信通院《高质量数字化转型技术解决方案集(2025年)》
人工智能·ai·自动化·数字化·智能体
跨境卫士苏苏19 分钟前
欧盟固定收费临近之后跨境卖家如何判断哪些轻小件先退出
大数据·人工智能·跨境电商·亚马逊·跨境
knight_9___22 分钟前
大模型project面试3
人工智能·python·语言模型·面试·大模型·agent
Aaron158823 分钟前
全频段 SDR干扰源模块解决方案(星链干扰、LORA无人机干扰)
人工智能·算法·fpga开发·硬件架构·硬件工程·无人机·信息与通信
AI医影跨模态组学25 分钟前
J Adv Res(IF=13)南方医科大学南方医院等团队:基于多模态渐进融合 Transformer 的肝细胞癌患者免疫治疗反应预测模型
人工智能·深度学习·论文·医学·医学影像·影像组学