论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

2024 10月的arxiv

1 主要idea

  • 针对多模态大模型(如LLaVA),提出了一系列高效的剪枝策略
    • 在显著降低计算开销(多达 88%)的同时,保持了模型在多模态任务中的性能表现

2 目前的问题

  • 与文本 token 相比,视觉 token 的数量往往更为庞大
    • 在 LLaVA 模型中,处理一张图像涉及超过 500 个视觉 token,而对应的文本 token 只有数十个
      • ------>计算效率低下
      • ------>视觉数据固有的空间稀疏性导致许多计算是冗余的
        • 大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键
        • 在深层模型中,视觉 token 对文本生成的影响逐渐减弱
  • 目前的优化策略通常以牺牲模型性能为代价
    • ------>如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的

3 论文方法

4 实验

效果没怎么降,FLOP降多了

相关推荐
byzh_rc13 小时前
[机器学习-从入门到入土] 拓展-最小二乘法
人工智能·机器学习·最小二乘法
阿里巴啦14 小时前
React+go实现AI 图像生成落地实践:文生图、图生图的工程项目
人工智能·react.js·ai作画·七牛云·ai生图·ai图生图
Codebee14 小时前
AI 时代的人机协同:在智慧与执行之间寻找平衡
人工智能
love530love14 小时前
EPGF 新手教程 12在 PyCharm(中文版 GUI)中创建 Poetry 项目环境,并把 Poetry 做成“项目自包含”(工具本地化为必做环节)
开发语言·ide·人工智能·windows·python·pycharm·epgf
XC1314890826714 小时前
ToB获客破局:精准数据+AI外呼,重构效率新模式
大数据·人工智能·重构
应用市场14 小时前
图片格式完全指南——从JPEG到AVIF的技术原理与选型
网络·人工智能·安全·汽车
2501_9418091414 小时前
在圣保罗智能物流场景中构建快递实时调度与高并发任务管理平台的工程设计实践经验分享
大数据·人工智能
hg011814 小时前
湖南电动汽车年出口额破百亿
人工智能
高洁0114 小时前
10分钟了解向量数据库(3
人工智能·深度学习·机器学习·transformer·知识图谱
IvorySQL14 小时前
让源码安装不再困难:IvorySQL 一键安装脚本的实现细节解析
数据库·人工智能·postgresql·开源