论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
测试人社区—66791 小时前
破茧成蝶:DevOps流水线测试环节的效能跃迁之路
运维·人工智能·学习·flutter·ui·自动化·devops
Lethehong2 小时前
openEuler AI 图像处理:Stable Diffusion CPU 推理性能优化与评测
人工智能
Guheyunyi2 小时前
智慧停车管理系统:以科技重塑交通效率与体验
大数据·服务器·人工智能·科技·安全·生活
std860212 小时前
微软将允许用户从Windows 11文件资源管理器中移除“AI 动作”入口
人工智能·microsoft
为爱停留2 小时前
Spring AI实现MCP(Model Context Protocol)详解与实践
java·人工智能·spring
秋刀鱼 ..2 小时前
第七届国际科技创新学术交流大会暨机械工程与自动化国际学术会议(MEA 2025)
运维·人工智能·python·科技·机器人·自动化
学历真的很重要8 小时前
VsCode+Roo Code+Gemini 2.5 Pro+Gemini Balance AI辅助编程环境搭建(理论上通过多个Api Key负载均衡达到无限免费Gemini 2.5 Pro)
前端·人工智能·vscode·后端·语言模型·负载均衡·ai编程
普通网友8 小时前
微服务注册中心与负载均衡实战精要,微软 2025 年 8 月更新:对固态硬盘与电脑功能有哪些潜在的影响。
人工智能·ai智能体·技术问答
苍何8 小时前
一人手搓!AI 漫剧从0到1详细教程
人工智能
苍何8 小时前
Gemini 3 刚刷屏,蚂蚁灵光又整活:一句话生成「闪游戏」
人工智能