【第四十五周】论文阅读

文章目录

  • 摘要
  • Abstract
  • [一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》](#一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》)
    • [1. 摘要](#1. 摘要)
    • [2. 引言](#2. 引言)
    • [3. 方法分类与核心机制](#3. 方法分类与核心机制)
      • [3.1 按模态分类](#3.1 按模态分类)
      • [3.2 四种核心机制对比](#3.2 四种核心机制对比)
    • [4. 实验与评估](#4. 实验与评估)
      • [4.1 图像任务评估](#4.1 图像任务评估)
      • [4.2 视频任务评估](#4.2 视频任务评估)
      • [4.3 评估挑战](#4.3 评估挑战)
    • [5. 讨论与未来方向](#5. 讨论与未来方向)
      • [5.1 与其他压缩方法的正交性](#5.1 与其他压缩方法的正交性)
      • [5.2 压缩的更深层价值](#5.2 压缩的更深层价值)
      • [5.3 方法组合的局限](#5.3 方法组合的局限)
      • [5.4 当前挑战](#5.4 当前挑战)
      • [5.5 未来方向](#5.5 未来方向)
    • [6. 应用场景](#6. 应用场景)
  • 总结

摘要

本周主要阅读论文《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》,这篇综述系统梳理了多模态大语言模型中的长上下文令牌压缩技术。针对图像、视频、音频三种模态,文章分析了各自特有的冗余特征(空间、时空、时频),并按照变换、相似性、注意力、查询四种机制对现有方法进行分类。


Abstract

This week, I mainly read the survey paper When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios. It systematically sorts out long-context token compression technologies for multimodal large language models. Targeting image, video and audio modalities, it analyzes their unique redundant features including spatial, spatiotemporal and time-frequency characteristics, and classifies existing methods into four categories based on transformation, similarity, attention and query mechanisms.


一、《When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios》

1. 摘要

多模态大语言模型(MLLMs)在处理长上下文(如高分辨率图像、长视频序列、长时间音频)方面展现出卓越能力,但自注意力机制的二次复杂度带来了巨大的计算和内存开销。令牌压缩(Token Compression) 成为缓解这一瓶颈的关键技术。

本文是首个系统性综述,聚焦于多模态长上下文下的令牌压缩方法。主要特点包括:

  • 按模态分类:图像、视频、音频,因为不同模态的冗余特性不同(空间、时空、时频)。
  • 按机制分类:基于变换、基于相似性、基于注意力、基于查询。

2. 引言

1,问题提出

MLLMs 处理长上下文时,视觉、音频数据产生的令牌数量远超文本。

2,冗余特征

图像:空间局部相似性(相邻像素/纹理)。

视频:时空连续性(连续帧高度重叠)。

音频:时间与频带稀疏性(静音段、稳态噪声)。

3,现有工作局限

(1)多数方法只针对单一或两种模态。

(2)缺乏系统性分类与跨模态比较。

(3)与文本LLM压缩(如prompt compression)存在本质差异。

4,主要贡献

(1)首次系统性综述:专门面向MLLMs的令牌压缩技术,填补该领域空白。

(2)双维度分类法:

  • 模态维度:图像、视频、音频。

  • 机制维度:变换、相似性、注意力、查询。

(3)结构化对比:总结各方法的优缺点、压缩率、性能权衡。

(4)识别关键挑战:性能退化、任务特定问题(OCR、时序感知)、部署障碍、评估体系不足。

3. 方法分类与核心机制

3.1 按模态分类

图像中心压缩

机制 代表方法 核心操作
变换 Pixel Unshuffle, Pooling, Convolution 下采样、维度重排
相似性 ToMe, FOLDER, DivPrune 聚类、合并相似令牌
注意力 FastV, VisionZip, PrunerMerge 基于[CLS]或解码器注意力分数剪枝
查询 Q-Former, VoCo-LLaMA, Victor 可学习查询令牌蒸馏

视频中心压缩

机制 代表方法 核心操作
变换 2D/3D Pooling, 3D Convolution 时空下采样
相似性 Chat-UniVi, FastVID, PruneVid 帧聚类 + 令牌合并
注意力 FastV, DyCoke 窗口注意力、时序剪枝
查询 Token Turing Machine, BLIP-3-Video 外部记忆令牌、时序编码器

音频中心压缩

机制 代表方法 核心操作
变换 Token Stacking, Pooling, 1D Conv 时域下采样
相似性 A-ToMe 高余弦相似度合并
注意力 Top-K, SpeechPrune 编码器/解码器注意力剪枝
查询 Audio Q-Former, SpeechPrune 学习查询 + 跨模态相似性

3.2 四种核心机制对比

机制 优点 缺点
变换 保留结构信息,无参或轻量 压缩率不灵活
相似性 灵活,可合并相似内容 可能丢失细粒度信息
注意力 动态相关性强,可解释性好 与加速库不兼容
查询 任务导向,信息密集 多轮对话支持差

4. 实验与评估

4.1 图像任务评估

  • 基准:GQA, MMB, MME, POPE, VQA2, MM-Vet 等。
  • 方法:FastV, VisionZip, DyCoke, LLaVA-Scissor 等。
  • 压缩率:保留10%~50%视觉令牌。
  • 关键发现
    • LLaVA-OV7B 在保留10%令牌时仍可保持近无损性能。
    • 更大模型(如72B)对压缩更敏感。

4.2 视频任务评估

  • 基准:ActivityNet, Video-ChatGPT, Next-QA, EgoSchema, VideoMME 等。
  • 指标:准确率、GPT评分、时间理解、一致性等。
  • 保留比率:50% / 25%~35% / 5%~15%。
  • 关键发现
    • FastV, DyCoke, PLLaVA 在50%压缩时性能下降微小。
    • 10%~15%压缩率下,HoliTom, PruneVid, VisionZip 仍保持较好性能。
    • 时空联合压缩优于纯空间或纯时间压缩。

4.3 评估挑战

  • 指标不完善:仅用压缩令牌数、FLOPs 无法反映真实推理加速。
  • 实际延迟指标缺失:建议引入 TTFT(首令牌时间)、每令牌解码延迟。
  • 基准粒度不足:现有基准无法隔离令牌压缩的真实贡献,需类似 EffiVLM-Bench 的专用测试。

5. 讨论与未来方向

5.1 与其他压缩方法的正交性

  • 模型压缩(量化、剪枝、蒸馏、低秩分解)→ 减少模型维度 (D)。
  • 令牌压缩 → 减少序列长度 (N)。
  • 两者可协同(如 NVILLA, CoreMatching)。

5.2 压缩的更深层价值

  • 提升模态对齐质量(如 Q-Former)。
  • 减少三类冗余:特征冗余、任务无关冗余、注意力计算冗余。
  • 实现单次长上下文理解(如整本书、长视频)。

5.3 方法组合的局限

  • 直接组合不同压缩方法效果不佳(MoB 论文发现 (1+1 < 1) 现象)。
  • 原因:压缩指标不一致,剪枝决策冲突。

5.4 当前挑战

类别 具体问题
性能退化 强模型对压缩更敏感,近无损压缩困难
任务敏感 OCR、时序任务(运动、节奏)易受影响
部署障碍 与 FlashAttention 等加速库不兼容;多轮对话支持差
评估体系 指标不足、基准不匹配、真实延迟未测

5.5 未来方向

  • 统一多模态令牌压缩框架:利用跨模态相关性。
  • 架构原生压缩:从设计阶段就融入冗余抽象(如视频LLM的固有低冗余设计)。
  • 更细粒度评估体系:面向训练-free加速的专用基准。

6. 应用场景

领域 应用方式 代表工作
GUI 代理 动态剪枝冗余视觉元素 ShowUI
医疗影像 病理感知局部无损压缩 PET-MRI 分析
自动驾驶/机器人 稀疏时空动态建模 VTS, StreamVLN
高效推理 压缩推理链(长思维链) 注意力/语义重要性压缩

总结

本周阅读论文是首个多模态长上下文令牌压缩的系统性综述,从模态机制两个维度对现有方法进行了全面分类与比较。文章不仅总结了技术进步与挑战,还提出了未来研究方向,包括统一框架、架构优化和更完善的评估体系。该工作为MLLMs的高效长上下文处理提供了基础性参考。

相关推荐
ʜᴇɴʀʏ2 小时前
AAAI 2025 | DuSSS:基于双语义相似性监督的半监督医学图像分割
论文阅读·机器学习
STLearner4 小时前
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘
Biomamba生信基地7 小时前
NC: 单细胞图谱揭示过敏性哮喘Th2细胞机制
论文阅读·生物信息学·单细胞测序·染色质可及性
Adios7947 小时前
NetVLAD: CNN architecture for weakly supervised place recognition 论文阅读
论文阅读·人工智能·计算机视觉
咖啡里的茶i18 小时前
域自适应图像语义分割技术研究与应用
论文阅读
咖啡里的茶i1 天前
域自适应学习:理论与应用新进展
论文阅读
咖啡里的茶i1 天前
双源判别器助力城市场景语义分割新突破
论文阅读
咖啡里的茶i2 天前
5G基站功率自适应算法突破
论文阅读