论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
磊磊落落17 小时前
在日常生活中,可以用 OpenClaw 做哪些事?
人工智能
QYR-分析18 小时前
2026-双足行走机器人行业发展综述
人工智能·机器人
V搜xhliang024618 小时前
3D 点云处理(PCL)
人工智能·目标检测·计算机视觉·3d·分类·知识图谱
阿里云大数据AI技术18 小时前
2026 年了,Physical AI 技术有哪些更新
人工智能
weixin_5051544618 小时前
博维数孪创新引领,3D作业指导助力制造业升级
大数据·人工智能·3d·数字孪生·数据可视化·产品交互展示
acheding18 小时前
OpenClaw浏览器自动化实战:让AI拥有“眼睛“和“双手“
运维·人工智能·自动化
吴佳浩18 小时前
Kimi 注意力残差(Attention Residuals)技术深度解读
人工智能·深度学习·llm
新智元18 小时前
GPT-5.4 mini+nano 突袭,1/3 价格养满血「龙虾」!OpenAI 彻底杀疯
人工智能·openai
Techblog of HaoWANG18 小时前
目标检测与跟踪(9)-- Jetson Xavier NX刷机、移植&部署YOLOv8量化模型(上)
人工智能·yolo·目标检测·边缘计算·sdkmanager·jetson刷机
向哆哆18 小时前
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)适用于YOLO系列深度学习检测任务
人工智能·深度学习·yolo