论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
视觉&物联智能1 小时前
【杂谈】-人类写作渐趋人工智能化
人工智能·ai·aigc·agent·agi
武子康1 小时前
调查研究-169 开源 TTS 模型横向对比:从“能发声“到“可部署的语音智能基础设施“(2026 版)
人工智能·openai
“码”力全开1 小时前
打通安防孤岛:基于 Docker 与 GB28181/RTSP 架构的 AI 视频管理平台,全源码交付解锁二次开发自主权
人工智能·docker·架构
金融RPA机器人丨实在智能1 小时前
工程单据Agent采购避坑:无节点追踪产品如何利用实在Agent实现溯源追责?
大数据·人工智能·ai
甲维斯1 小时前
GLM5.1版“超级玛丽”,有点东西!
人工智能·ai编程·游戏开发
爱喜剧的魔王1 小时前
实战操作——如何安装codex并添加nature-skills
人工智能
断春风1 小时前
企业级 AI 应用开发实战:从 Demo 到生产系统的完整架构
人工智能·架构·ai开发
ZKNOW甄知科技1 小时前
燕千云AI-ITR系列:三线分层机制的标准化解决方案
大数据·运维·人工智能·低代码·自然语言处理·自动化·敏捷流程
hai_qin1 小时前
让子弹飞一会
人工智能
DMD1681 小时前
AI外贸部:企业出海的新探索
人工智能