论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
H Journey3 分钟前
openCV图像学-二值化
人工智能·opencv·计算机视觉
算法即正义3 分钟前
知识竞赛计分规则设置指南:七种计分模式详解与实操建议
人工智能
这张生成的图像能检测吗7 分钟前
(论文速读)基于微调大语言模型的数控车床故障诊断
人工智能·语言模型·故障诊断·车床技术
大写-凌祁7 分钟前
RescueADI:基于自主智能体的遥感图像自适应灾害解译
人工智能·计算机视觉·语言模型·自然语言处理·aigc
fof92011 分钟前
Base LLM | 从 NLP 到 LLM 的算法全栈教程 第六天
人工智能·自然语言处理
Godspeed Zhao15 分钟前
科技信息最前沿——TurboQuant:以极致压缩重新定义人工智能效率
人工智能·科技
AI医影跨模态组学17 分钟前
Radiology子刊(IF=6.3)复旦大学附属金山医院强金伟教授等团队:基于多参数MRI的深度学习和影像组学评估早期宫颈癌淋巴结转移
人工智能·深度学习·论文·医学·医学影像
Ln5x9qZC218 分钟前
Laravel AI SDK 正式发布
android·人工智能·laravel
nimadan1219 分钟前
生成剧本杀软件2025推荐,创新剧情设计工具引领潮流
人工智能·python
嵌入式小企鹅22 分钟前
阿里编程模型赶超、半导体涨价蔓延、RISC-V新品密集上线
人工智能·学习·ai·程序员·risc-v·芯片