论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
许泽宇的技术分享几秒前
当AI学会拍短剧:Huobao Drama全栈AI短剧生成平台深度解析
人工智能
爱喝可乐的老王1 分钟前
机器学习监督学习模型--线性回归
人工智能·机器学习·线性回归
金融Tech趋势派2 分钟前
2025企业微信私有化部署优秀服务商:微盛·企微管家方案解析
人工智能·企业微信·scrm
Gofarlic_oms112 分钟前
跨国企业Cadence许可证全球统一管理方案
java·大数据·网络·人工智能·汽车
AAD5558889912 分钟前
牛肝菌目标检测:基于YOLOv8-CFPT-P2345模型的创新实现与应用_1
人工智能·yolo·目标检测
幂链iPaaS25 分钟前
制造业/零售电商ERP和MES系统集成指南
大数据·人工智能
gorgeous(๑>؂<๑)31 分钟前
【中国科学院光电研究所-张建林组-AAAI26】追踪不稳定目标:基于外观引导的运动建模在无人机拍摄视频中实现稳健的多目标跟踪
人工智能·机器学习·计算机视觉·目标跟踪·无人机
美狐美颜sdk38 分钟前
企业级直播美颜SDK与动态贴纸SDK开发技术方案拆解与落地实践
android·人工智能·计算机视觉·第三方美颜sdk·人脸美型sdk
不如语冰39 分钟前
AI大模型入门1.1-python基础-数据结构
数据结构·人工智能·pytorch·python·cnn
oscar9991 小时前
机器学习实战:多项式回归建模——从模拟数据到模型评估
人工智能·机器学习·回归