山大提出攻克视频大模型时间理解短板新方案

大模型实验室Lab4AI2026-02-12 12:31

论文名称：TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs

作者团队-中文：山东大学、山东建筑大学、香港城市大学、快手

发表时间：2025年8月7日

Lab4AI链接：https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=csdn_time&id=24baff47718a41a6aac260201a735417

✨研究背景：

视频大型语言模型在视频问答等任务中已展现显著能力，但时间理解仍是关键短板。现有问题主要包括两方面：一是缺乏专用时间敏感指令微调数据，现有数据集侧重通用场景泛化，部分生成式数据集适用范围有限难以支撑深度时间推理；二是模型易依赖数据捷径（如面部朝向而非真实时间分析），现有时间基准测试也受此影响，导致模型性能被高估。

✨研究内容：

为提升视频 - LLMs 的时间理解能力，该研究提出 "数据集 - 微调方法 - 基准测试" 三位一体的解决方案。

首先，构建含 34,000 个样本的 TIME 指令微调数据集，覆盖动态、推理、时长、位置、顺序五大时间维度，并通过去偏策略剔除数据捷径；

其次，设计多任务提示微调（MTP）框架，融入帧索引预测、指定视频问答两类辅助任务，无需额外标注即可增强模型时间理解；

最后，开发 TIMEBench 基准测试集，通过多源数据整合与单帧过滤机制，实现对模型时间推理能力的精准评估。

实验在 4 个主流视频 - LLMs 上验证了方法的有效性，显著提升了模型在时间相关任务上的性能。

核✨心贡献：

采用本文方法微调后，4个视频-LLMs在多数基准测试集上表现显著提升，尤其在时间理解专用基准（如TIMEBench、MVBench）上效果突出，且不损害通用任务性能。