论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
薛定猫AI3 分钟前
【技术干货】Claude Code 终端编程实战:从零搭建 Windows 高效 AI 开发环境
人工智能·windows
AI医影跨模态组学8 分钟前
Radiology子刊 暨南大学附属第一医院等团队:基于肿瘤和内脏脂肪组织CT特征的深度学习模型用于预测浆膜浸润性胃癌根治术后腹膜转移风险
人工智能·深度学习·论文·医学·医学影像
NineData11 分钟前
NineData 亮相 2026 德国汉诺威工业博览会,加速拓展欧洲及全球市场
运维·数据库·人工智能·数据库管理·ninedata·ai服务·玖章算术
Flying pigs~~18 分钟前
大模型Prompt-Tuning技术进阶 - 完整总结
人工智能·大模型·prompt
weikecms19 分钟前
优惠电影票API接口+大牌点餐等本地生活接口对接
人工智能·微客云
折哥的程序人生 · 物流技术专研20 分钟前
WMS智能调度实战:构建机器学习特征表的完整指南
人工智能·机器学习
墨染天姬21 分钟前
[AI]DeepSeek-R1的GRPO算法
人工智能·算法·php
拓朗工控21 分钟前
工控机在高精度视觉检测中的实际应用
人工智能·计算机视觉·视觉检测
后端小肥肠21 分钟前
我把AI童装带货做成了一个Skill,一句话就能出视频
人工智能·aigc·agent
AI技术增长25 分钟前
Pytorch图像去噪实战(二):用UNet解决DnCNN细节丢失问题(结构解析+完整代码+踩坑总结)
人工智能·pytorch·python