论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
大模型落地手艺人14 分钟前
OpenClaw/CoPaw易用性突破!Skill UI Generator 让skill可视化
人工智能
CodeDevMaster16 分钟前
从零开始:OpenClaw本地 AI 助手部署指南
人工智能·agent·ai编程
阿聪谈架构37 分钟前
第03章:LCEL 链式调用 —— 让 AI 任务像流水线一样运转
人工智能
chaors40 分钟前
从零学RAG0x04向量检索算法初探
人工智能·程序员·ai编程
chaors42 分钟前
Langchain入门到精通0x01:结果解析器
人工智能·langchain·ai编程
龙国浪子42 分钟前
从「选中一段」到「整章润色」:编辑器里的 AI 润色是怎么做出来的
前端·人工智能
gustt44 分钟前
深入浅出RAG:检索增强生成技术详解与实践
人工智能·llm
gustt1 小时前
LangChain中的RAG Loader:从网页加载文档并实现智能分割与检索
人工智能·langchain·llm
一只叁木Meow1 小时前
Skills:让通用 AI 秒变"领域专家"
vue.js·人工智能
游魂Andy1 小时前
零成本搭建专属AI助手:OpenClaw永久免费部署全攻略
前端·人工智能·ai编程