【英伟达AI论文】多模态大型语言模型的高效长视频理解

摘要：近年来，基于视频的多模态大型语言模型（Video-LLMs）通过将视频处理为图像帧序列，显著提升了视频理解能力。然而，许多现有方法在视觉主干网络中独立处理各帧，缺乏显式的时序建模，这限制了它们捕捉动态模式并高效处理长视频的能力。为了解决这些局限，我们提出了STORM（多模态大型语言模型的时空令牌缩减方法），这是一种在图像编码器和大型语言模型之间集成专用时序编码器的新颖架构。我们的时序编码器利用Mamba状态空间模型，将时序信息整合到图像令牌中，生成富含信息的表示，这些表示在整个视频序列中保留了帧间动态。这种丰富的编码不仅增强了视频推理能力，还实现了有效的令牌缩减策略，包括测试时采样和基于训练的时序与空间池化，从而在不显著牺牲关键时序信息的情况下，大幅降低了大型语言模型的计算需求。通过集成这些技术，我们的方法同时减少了训练和推理延迟，并提高了性能，使得在长时间上下文中能够实现高效且稳健的视频理解。大量评估表明，STORM在各种长视频理解基准测试中取得了最先进的结果（在MLVU和LongVideoBench上提升了超过5%），同时将计算成本降低了多达8倍，在固定输入帧数的情况下，解码延迟降低了2.4-2.9倍。项目页面请访问：Token-Efficient Long Video Understanding for Multimodal LLMs。Huggingface链接：Paper page，论文链接：2503.04130

研究背景和目的

研究背景

随着多媒体内容的爆炸式增长，尤其是视频数据的激增，如何高效且准确地理解和分析视频内容成为了一个重要而具有挑战性的任务。视频理解技术广泛应用于智能监控、内容推荐、自动驾驶、视频搜索等多个领域。近年来，基于视频的多模态大型语言模型（Video-LLMs）在视频理解方面取得了显著进展。这些模型通过将视频处理为图像帧序列，并利用预训练的大型语言模型（LLMs）进行时序推理，显著提升了视频理解的能力。

然而，尽管现有的Video-LLMs在视频理解方面取得了不错的效果，但它们仍存在一些局限性。特别是在处理长视频时，这些方法往往独立地处理每一帧图像，缺乏显式的时序建模能力。这种处理方式限制了模型捕捉动态模式和高效处理长视频的能力。此外，由于LLMs的上下文长度限制，直接处理长视频帧序列会导致计算成本过高，严重影响模型的效率和可扩展性。

研究目的

针对上述问题，本研究旨在提出一种新的方法，以提高长视频理解的高效性和准确性。具体研究目的包括：

引入显式的时序建模：通过在视频编码器和大型语言模型之间集成一个专用的时序编码器，以捕捉视频中的时序动态，从而增强模型的视频推理能力。
实现高效的令牌缩减：开发有效的令牌缩减策略，以减少输入到LLMs的令牌数量，从而降低计算成本并提高推理速度。
提升长视频理解能力：通过结合上述技术，实现在长时间上下文中对视频内容的高效且稳健的理解，并在多个长视频理解基准测试上取得优异的表现。

研究方法

总体架构

本研究提出了STORM（Spatiotemporal TOken Reduction for Multimodal LLMs）方法，该方法在图像编码器和大型语言模型之间引入了一个基于Mamba状态空间模型的时序编码器。整体架构如图2所示，包括以下几个关键组件：

图像编码器：用于将视频帧转换为图像令牌。本研究采用SigLIP作为图像编码器。
Mamba时序编码器：通过应用Mamba状态空间模型，将时序信息整合到图像令牌中，生成富含信息的表示。这些表示不仅保留了帧内空间信息，还捕捉了帧间时序动态。
令牌缩减模块：包括训练时的时序池化和空间池化，以及测试时的时序令牌采样。这些策略显著减少了输入到LLMs的令牌数量，同时尽可能保留了关键信息。
大型语言模型：用于处理缩减后的令牌序列，执行时序推理以理解视频内容。

Mamba时序编码器

Mamba状态空间模型是一种条件状态空间模型，能够根据输入动态调整其参数，从而更灵活地建模序列数据。在STORM中，Mamba时序编码器通过双向时空扫描模块，同时捕捉视频帧内的空间依赖关系和帧间的时序依赖关系。这种扫描方式不仅提高了模型的时序建模能力，还为后续的令牌缩减提供了富含信息的令牌。

令牌缩减策略

时序池化：通过对连续帧的令牌进行平均池化，减少时序维度上的令牌数量。这种方法有效降低了计算成本，同时保留了关键的时序信息。
空间池化：对每个帧内的令牌进行平均池化，减少空间维度上的令牌数量。这种方法进一步降低了计算成本，并在某些任务上取得了不错的效果。
时序令牌采样：在测试时，通过均匀采样时序维度上的令牌，进一步减少输入到LLMs的令牌数量。这种方法不仅提高了推理速度，还在某些情况下提升了模型性能。

研究结果

定量评估

本研究在多个长视频理解基准测试上对STORM进行了评估，包括MVBench、MLVU、LongVideoBench和VideoMME等。实验结果表明，STORM在所有这些基准测试上都取得了最先进的结果，显著超过了现有的Video-LLMs方法。特别是在MLVU和LongVideoBench上，STORM的准确率提升了超过5%。

此外，本研究还评估了不同令牌缩减策略的效果。实验结果表明，时序池化和空间池化在训练时显著减少了输入到LLMs的令牌数量，从而降低了计算成本。而测试时的时序令牌采样则在保持或提升模型性能的同时，进一步提高了推理速度。

定性评估

本研究还通过定性评估展示了STORM在长视频理解方面的优势。如图9所示，在处理一个描述"月球坠落灾难"的短片时，STORM能够提供更详细和连贯的视频叙事摘要，准确捕捉了关键事件和过渡，展示了其在长视频理解方面的强大能力。

此外，本研究还通过示例视频展示了STORM在OCR、属性感知、空间感知、信息摘要和时序推理等多个方面的视频理解能力。如图11至图13所示，即使面对复杂的查询问题，STORM也能够准确提取视频中的相关信息，并生成符合要求的答案。

研究局限

尽管STORM在长视频理解方面取得了显著进展，但仍存在一些局限性：

模型复杂性：引入Mamba时序编码器增加了模型的复杂性，可能导致训练难度增加和计算成本上升。尽管本研究通过令牌缩减策略降低了计算成本，但如何在保持模型性能的同时进一步简化模型结构仍是一个挑战。
数据集限制：当前的长视频理解基准测试数据集在规模和多样性方面仍有一定限制。为了训练出更加鲁棒和泛化能力更强的模型，需要更大规模、更多样化的数据集。
时序令牌采样的局限性：尽管测试时的时序令牌采样在提高推理速度方面表现优异，但在某些任务上可能会导致信息损失。如何平衡推理速度和模型性能仍是一个需要深入研究的问题。

未来研究方向

针对上述研究局限，未来可以从以下几个方面开展进一步研究：

模型优化：探索更高效的模型结构和训练方法，以降低模型的复杂性并提高训练效率。同时，可以研究如何在保持模型性能的同时进一步减少计算成本。
数据集扩展：构建更大规模、更多样化的长视频理解基准测试数据集，以训练出更加鲁棒和泛化能力更强的模型。此外，还可以研究如何利用合成数据或弱监督学习方法来扩展数据集。
时序令牌采样策略改进：研究更加智能的时序令牌采样策略，以在保持模型性能的同时进一步提高推理速度。例如，可以结合注意力机制或强化学习方法来动态调整采样策略。
多模态融合：除了视觉信息外，还可以探索如何融合音频、文本等其他模态的信息来提高视频理解能力。例如，可以利用多模态预训练模型来同时处理视频帧、音频和字幕等信息。
实时视频理解：针对实时应用场景的需求，研究如何在保持模型性能的同时实现更高效的实时视频理解。例如，可以结合边缘计算或分布式计算等技术来降低推理延迟。

综上所述，本研究提出的STORM方法在多模态大型语言模型的高效长视频理解方面取得了显著进展。然而，为了实现更加高效、准确和鲁棒的视频理解技术，未来仍需要进一步的研究和探索。