论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
虚神界熊孩儿13 小时前
告别云端依赖!OpenStation 大模型本地部署,携手 OpenCode 重构 AI 编程全流程
人工智能·aicoding·本地大模型部署·opencode
unicrom_深圳市由你创科技13 小时前
为传统工业系统植入“智能体”:AI如何重构采购全流程
人工智能·重构
木雷坞13 小时前
Physical AI 数据工厂怎么落地?先把 CUDA、K8s、Quay 镜像拉取稳定下来
人工智能·容器·kubernetes
QYR-分析13 小时前
高级辅助驾驶系统控制模块行业分析报告
人工智能
STLearner13 小时前
AI论文速读 | QuitoBench:支付宝高质量开源时间序列预测基准测试集
大数据·论文阅读·人工智能·深度学习·学习·机器学习·开源
Lucifer__hell14 小时前
【测试】Axure原型的AI测试用例生成方案
人工智能·测试用例·axure
跨境卫士苏苏14 小时前
清关链路更透明以后跨境卖家如何减少资料反复修改
大数据·人工智能·安全·跨境电商·亚马逊
easy_coder14 小时前
ReAct 进入死循环?用 Harness 把它拉回来
人工智能·架构·云计算
我是无敌小恐龙14 小时前
Java SE 零基础入门Day06 方法重载+Debug调试+String字符串全套API详解(超全干货)
java·开发语言·人工智能·python·transformer·无人机·量子计算
aidesignplus14 小时前
从平方到线性:Mamba如何挑战Transformer的长序列效率瓶颈?
人工智能·python·深度学习·vim·transformer