论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
预测模型的开发与应用研究8 分钟前
AI编程工具横向评测--Cloudstudio塑造完全态的jupyter notebook助力数据分析应用开发
人工智能·jupyter·数据分析
i鹰斯坦爱吃红烧you19 分钟前
探索 Transformer²:大语言模型自适应的新突破
人工智能·pytorch·python·深度学习·语言模型·自然语言处理·transformer
云天徽上24 分钟前
【机器学习案列】基于朴素贝叶斯的垃圾短信分类
人工智能·机器学习·分类
Jozky8628 分钟前
自动驾驶&占用网格预测
人工智能·机器学习·自动驾驶
day day-up32 分钟前
1.17组会汇报
人工智能
油泼辣子多加1 小时前
Prompt-人工智能领域的核心技术与创新理念
人工智能·prompt
蜉蝣1号1 小时前
【已解决】我和ollama运行的qwen2.5大模型通信,总是返回GGGG?
人工智能·ai·语言模型·aigc
AI趋势预见1 小时前
AAPM:基于大型语言模型代理的资产定价模型,夏普比率提高9.6%
人工智能·深度学习·神经网络·语言模型·自然语言处理
安科瑞蒋静2 小时前
关于安科瑞Acrel-1000DP分布式光伏监控系统的实际案例分析-安科瑞 蒋静
大数据·人工智能
yzx9910132 小时前
OpenCV基础
人工智能·opencv·计算机视觉