论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
陈天伟教授几秒前
人工智能应用- 走向未来:05.量子计算
人工智能·神经网络·机器学习·量子计算·推荐算法
东方不败之鸭梨的测试笔记1 分钟前
RAG(检索增强生成)系统-ScoreThreshold
人工智能
看-是灰机2 分钟前
企业级openclaw应用部署
运维·人工智能·机器学习
饼干哥哥3 分钟前
7*24小时全栈开发的Agent Team 避坑指南
人工智能
Elastic 中国社区官方博客4 分钟前
从判断列表到训练好的 Learning to Rank( LTR )模型
大数据·数据库·人工智能·深度学习·elasticsearch·搜索引擎·全文检索
xiami_world7 分钟前
AI生成PPT工具技术横评:Agent专家模式如何重构PPT生成工作流(6款工具实测)
人工智能·经验分享·ai·信息可视化·powerpoint
云雾J视界7 分钟前
2026年AI Agent框架选型指南:OpenClaw vs LangChain vs AutoGen 深度对比
大数据·人工智能·langchain·agent·open claw
纪伊路上盛名在8 分钟前
PPT汇报中方法学、框架流程图的 文生图方案1
人工智能·文生图·流程图·科研·agent
程序大视界10 分钟前
用Claude Code分析Claude Code源码
人工智能·claude code
盘古信息IMS11 分钟前
IMS六代精研!盘古信息擘画“中国离散制造MES + AI数智平台”新蓝图
人工智能·制造