论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
G31135422736 小时前
如何用 QClaw 龙虾做一个规律作息健康助理 Agent
大数据·人工智能·ai·云计算
幂律智能6 小时前
零售行业合同管理数智化转型解决方案
大数据·人工智能·零售
旺财矿工6 小时前
零基础搭建 OpenClaw 2.6.6 Win11 本地化运行环境
人工智能·openclaw·小龙虾·龙虾·openclaw安装包
九成宫6 小时前
动手学深度学习PyTorch版初步安装过程
人工智能·pytorch·深度学习
Traving Yu6 小时前
Prompt提示词工程
人工智能·prompt
NOCSAH6 小时前
统好AI CRM功能解析:智能录入与跟进
人工智能
He少年6 小时前
【AI 辅助编程做设备数据采集:一个真实项目的迭代复盘(OpenSpec 驱动)】
人工智能
华万通信king6 小时前
WorkBuddy知识库企业级搭建实战:从零到生产级别的完整路径
大数据·人工智能
测试员周周7 小时前
【AI测试系统】第3篇:AI生成的测试用例太“水”?14年老兵:规则引擎+AI才是王炸组合
人工智能·python·测试
fzil0017 小时前
自动投递简历 + 面试进度跟踪
人工智能·面试·职场和发展