山大提出攻克视频大模型时间理解短板新方案

论文名称:TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs

作者团队-中文:山东大学、山东建筑大学、香港城市大学、快手

发表时间:2025年8月7日

论文链接:https://arxiv.org/pdf/2503.09994

Lab4AI链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=csdn_time&id=24baff47718a41a6aac260201a735417

✨研究背景:

视频大型语言模型在视频问答等任务中已展现显著能力,但时间理解仍是关键短板。现有问题主要包括两方面:一是缺乏专用时间敏感指令微调数据,现有数据集侧重通用场景泛化,部分生成式数据集适用范围有限难以支撑深度时间推理;二是模型易依赖数据捷径(如面部朝向而非真实时间分析),现有时间基准测试也受此影响,导致模型性能被高估。

✨研究内容:

为提升视频 - LLMs 的时间理解能力,该研究提出 "数据集 - 微调方法 - 基准测试" 三位一体的解决方案。

首先,构建含 34,000 个样本的 TIME 指令微调数据集,覆盖动态、推理、时长、位置、顺序五大时间维度,并通过去偏策略剔除数据捷径;

其次,设计多任务提示微调(MTP)框架,融入帧索引预测、指定视频问答两类辅助任务,无需额外标注即可增强模型时间理解;

最后,开发 TIMEBench 基准测试集,通过多源数据整合与单帧过滤机制,实现对模型时间推理能力的精准评估。

实验在 4 个主流视频 - LLMs 上验证了方法的有效性,显著提升了模型在时间相关任务上的性能。

核✨心贡献:

采用本文方法微调后,4个视频-LLMs在多数基准测试集上表现显著提升,尤其在时间理解专用基准(如TIMEBench、MVBench)上效果突出,且不损害通用任务性能。

相关推荐
zhengyquan11 分钟前
7000mAh 电池 + 独立 AI 键,小米 18 Pro 是堆料还是突破?
大数据·人工智能
俊哥V13 分钟前
每日 AI 研究简报 · 2026-04-17
人工智能·ai
geneculture22 分钟前
意识的多学科定义:从16个视域,到融智学统合——基于“意+识”框架且区分“意识≠心智”系统研究
大数据·人工智能·融智学的重要应用·哲学与科学统一性·融智时代(杂志)·意识=意+识·智=信息处理+选择用意
昇腾CANN29 分钟前
码力全开特辑直播预告|4月20日19:00,PyPTO Tensor编程范式介绍
人工智能·昇腾·cann
悟乙己30 分钟前
andrej-karpathy-skills:让 AI 编程更靠谱 Karpathy 四大原则深度解析
人工智能·dreamweaver
不知名的老吴33 分钟前
AI辅助编程之生成测试用例
人工智能·测试用例
Ai1731639157937 分钟前
GB200 NVL72超节点深度解析:架构、生态与产业格局
大数据·服务器·人工智能·神经网络·机器学习·计算机视觉·架构
菜鸟‍38 分钟前
【论文学习】Transformer中的数据流动
深度学习·学习·transformer
Yolanda9441 分钟前
【人工智能】《从零搭建AI问答助手项目(二):模型选择》
人工智能
小章UPUP42 分钟前
2026年第十六届MathorCup数学应用挑战赛D题国奖思路
算法