论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
新缸中之脑几秒前
AI工程师成长路线图 (2026)
人工智能
商业数据派几秒前
快手估值重构的“隐藏彩蛋”
大数据·人工智能·重构
新缸中之脑4 分钟前
你的智能体技术栈中缺失的层
大数据·人工智能·数据挖掘
呆呆敲代码的小Y9 分钟前
UnityMCP+Claude+VSCode,构建最强AI游戏开发环境
人工智能·vscode·游戏·unity·游戏引擎·u3d·mcp
balmtv18 分钟前
Claude 3.5镜像深度推理实战:用AI破解复杂逻辑谜题与数学证明
人工智能
BPM66629 分钟前
2026 AI流程管理软件选型:从BPM到iBPM,如何构建可分析、可优化、可执行的流程平台
人工智能
wggmrlee1 小时前
AI技术架构全局视角
人工智能·架构
peachSoda71 小时前
前端想转AI全栈-初步练习记录
前端·人工智能
福客AI智能客服1 小时前
电商AI客服:自动客服机器人如何成为企业效率提升的关键
人工智能·机器人
Data-Miner1 小时前
46页精品PPT | AI智能中台企业架构设计_重新定义制造
人工智能·制造