CVPR|Video-MME:判断模型“会不会看视频“的统一标尺

做视频多模态，迟早会遇到一个核心问题：

怎么科学地判断一个模型到底"会不会看视频"？

过去，视频理解评测长期比较零散：不同论文使用不同数据集、不同采样方式、不同指标，导致模型之间很难公平横向比较。你说模型强，到底强在哪、强多少，并没有统一答案。

Video-MME（CVPR 2025）正是为了解决这个问题而提出。它是首个全面评测多模态大模型视频分析能力的基准，如今已经成为许多旗舰模型的官方视频评测标准。

▲ Video-MME 被各大旗舰模型采纳为官方视频评测基准

根据你的需求，在方案二的基础上做了精简，去掉了部分修饰，让句子更短、节奏更快，但保留了"排雷"、"兵器谱"和三个核心对比点。你可以直接放进文章里：

Video-MME之所以要重新定义标尺，正是因为老尺子们"水太深"。我们整理了一份《视频多模态常用基准排雷对比表》，它就像一张兵器谱：

一看长短：谁只敢测30秒，谁敢硬刚2小时长片？

二看维度：谁是偏科生，谁是全能学霸？

三看采样：谁靠密集抽帧作弊刷分？

这张表，是你读懂前沿进展的真正说明书。

关注公众号"LLM炼丹炉 "，后台回复【B543】，限时领取高清版。

1. Video-MME 想解决什么问题？

视频理解领域一直缺少一把统一的"尺子"。

不同研究往往使用不同的视频数据、任务设置和评测方式。即使两个模型都声称在视频理解上表现优秀，也很难判断谁更强、强在哪里。

这会带来一个严重问题：如果没有统一评测标准，领域的真实进展就很难被衡量。

Video-MME 的目标，就是建立一个被广泛认可的视频多模态评测基准，让模型之间的比较更加公平、透明、可复现。

2. 这个基准是怎么设计的？

Video-MME 的关键词是：全面。

它覆盖了不同长度、不同类型、不同场景的视频内容，从短视频到长视频，从日常场景到复杂事件，尽可能接近真实世界中的视频理解需求。

它不是只考察单一能力，而是综合评估模型在视频分析中的多方面表现，包括：

视频内容理解
时序关系推理
长视频信息整合
细粒度视觉细节识别
视频与语言之间的对齐能力

更重要的是，Video-MME 并不是一个"一次性发布后就不管"的数据集。作者持续维护基准，包括替换失效视频链接、重新标注数据等，以保证评测长期可靠。

对于视频基准来说，这一点非常关键。因为视频数据往往存在链接失效、版权限制、内容不可访问等问题。如果没有持续维护，一个基准很容易逐渐失效。

3. 一个容易被忽略但很重要的发现：采样会影响成绩

Video-MME 还揭示了一个非常实际的问题：

视频模型的评测结果，会受到采样帧数和分辨率的显著影响。

例如，同一个模型在不同采样设置下，成绩可能出现明显差异。论文中提到，GPT-4o 在采样更多帧、使用更高分辨率时，准确率明显高于只采少量帧的设置。

这说明，评测视频模型时，不能只报告一个最终分数，还必须说明具体的评测口径，例如：

采样多少帧
输入分辨率是多少
是否使用音频
视频是否被截断
长视频如何分段处理

否则，不同模型之间的结果可能并不可比。

4. Video-MME 最重要的影响是什么？

Video-MME 的影响力主要体现在三点。

第一，成为旗舰模型的官方视频考卷

包括 Gemini、GPT 系列在内的多款旗舰多模态模型，都使用 Video-MME 报告视频理解能力。

例如，Gemini 2.5 Pro 曾用 Video-MME 报告其视频理解成绩；GPT-4.1 也将其作为多模态长上下文能力的重要衡量标准之一。后续更多模型继续采用它，使其逐渐成为行业默认的视频评测基准。

第二，让视频评测更加公平

Video-MME 强调统一评测标准，尤其提醒大家注意采样设置对结果的影响。

这对整个领域非常重要。因为如果一个模型用了更多帧、更高分辨率，而另一个模型只用了少量帧，那么二者的分数直接比较并不公平。

第三，暴露当前模型的真实短板

通过更全面的视频任务设计，Video-MME 能够更清楚地揭示模型在长视频理解、细粒度时序推理、复杂事件追踪等方面的不足。

这让研究者不仅能看到模型"得了多少分"，还能进一步分析模型到底哪里不行。

5. 这篇工作的亮点

我认为 Video-MME 最值得关注的地方有三个。

1）全面性

它覆盖多种视频长度、类型和任务，不再局限于某一个单点能力，更接近真实世界的视频理解需求。

2）权威性

被多家顶级商业模型采纳为官方评测基准，本身就说明它已经形成了较强的行业共识。

3）可维护性

视频基准最怕数据失效。Video-MME 持续替换失效链接、更新标注，使基准具备更长的生命周期。

这也是很多基准容易被忽视、但非常重要的一点。

6. 也需要冷静看待它的边界

即使 Video-MME 已经成为重要标准，它也不是万能的。

首先，它是一个综合性基准，因此不一定能深入考察某些非常专业的细分场景，比如医疗视频、工业视频、自动驾驶长尾场景等。

其次，视频数据天然存在版权和可访问性问题，长期维护成本较高。

最后，随着模型能力快速提升，任何基准都有可能面临"刷分饱和"的问题。因此，Video-MME 未来也需要不断升级，加入更难、更真实、更细粒度的评测任务。

结语

Video-MME 把"视频理解评测"这件事标准化了。

它的价值不只是提供一个分数榜单，而是为视频多模态领域建立了一把公平、可靠、被广泛认可的尺子。

有了统一标尺，模型能力的进步才真正可衡量。

对于关注视频多模态、模型评测和基准设计的研究者来说，Video-MME 是进入视频理解领域必须了解的基础工作之一。