论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
AI枫林晚21 小时前
OpenClaw Hooks 机制深度解析:插件扩展的核心架构
人工智能
蓝桉~MLGT21 小时前
Ai-Agent学习历程(插播内容)—— 基于现在最新的Skills、MCP、Rules等进行详细拆解,并列举出使用场景
人工智能·学习
智慧化智能化数字化方案21 小时前
数字化进阶——解读场景化、图谱化推进重点行业数字化转型的参考指引(2025版)
大数据·人工智能·云计算·行业数字化转型的参考指引
AI程序员21 小时前
Harness Engineering:不是写规则,而是设计控制系统
人工智能
flyfox21 小时前
Kiro AI IDE 深度使用指南:从入门到高效开发
前端·人工智能·ai编程
lovingsoft21 小时前
Cursor Skills 实战教程:解锁AI编码效率,附多场景案例
前端·人工智能
无限大.21 小时前
数字生存03:在AI时代,如何保持工作与生活的平衡
人工智能·生活
梦想的初衷~21 小时前
无人机多光谱-生态三维建模全流程实战——基于Python与AI辅助技术
人工智能·python·无人机·生态·遥感·多光谱
感性的程序员小王21 小时前
阿里面试官:说说Agent Skills、MCP、Function Call之间的区别吧?
人工智能·面试
G***技21 小时前
物流自动化迈入边缘智能,杰和科技AR707成为关键引擎
人工智能·嵌入式硬件·机器人·边缘计算盒