山大提出攻克视频大模型时间理解短板新方案

论文名称:TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs

作者团队-中文:山东大学、山东建筑大学、香港城市大学、快手

发表时间:2025年8月7日

论文链接:https://arxiv.org/pdf/2503.09994

Lab4AI链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=csdn_time&id=24baff47718a41a6aac260201a735417

✨研究背景:

视频大型语言模型在视频问答等任务中已展现显著能力,但时间理解仍是关键短板。现有问题主要包括两方面:一是缺乏专用时间敏感指令微调数据,现有数据集侧重通用场景泛化,部分生成式数据集适用范围有限难以支撑深度时间推理;二是模型易依赖数据捷径(如面部朝向而非真实时间分析),现有时间基准测试也受此影响,导致模型性能被高估。

✨研究内容:

为提升视频 - LLMs 的时间理解能力,该研究提出 "数据集 - 微调方法 - 基准测试" 三位一体的解决方案。

首先,构建含 34,000 个样本的 TIME 指令微调数据集,覆盖动态、推理、时长、位置、顺序五大时间维度,并通过去偏策略剔除数据捷径;

其次,设计多任务提示微调(MTP)框架,融入帧索引预测、指定视频问答两类辅助任务,无需额外标注即可增强模型时间理解;

最后,开发 TIMEBench 基准测试集,通过多源数据整合与单帧过滤机制,实现对模型时间推理能力的精准评估。

实验在 4 个主流视频 - LLMs 上验证了方法的有效性,显著提升了模型在时间相关任务上的性能。

核✨心贡献:

采用本文方法微调后,4个视频-LLMs在多数基准测试集上表现显著提升,尤其在时间理解专用基准(如TIMEBench、MVBench)上效果突出,且不损害通用任务性能。

相关推荐
aircrushin15 分钟前
OpenClaw开源生态与AI执行能力的产业化路径
人工智能
是糖糖啊20 分钟前
OpenClaw 从零到一实战指南(飞书接入)
前端·人工智能·后端
踩着两条虫44 分钟前
从设计稿到代码:VTJ.PRO 的 AI 集成系统架构解析
前端·vue.js·人工智能
孤烟1 小时前
吓瘫!我用1行代码攻破公司自研AI权限系统,数据裸奔一整夜(附攻击payload+防御源码)
人工智能·ai编程
哥布林学者1 小时前
高光谱成像(三)主成分分析 PCA
机器学习·高光谱成像
掘金一周1 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了 | 掘金一周 3.5
前端·人工智能·agent
CoovallyAIHub1 小时前
Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!
深度学习·算法·计算机视觉
vivo互联网技术2 小时前
ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
人工智能·python·深度学习
OpenBayes贝式计算2 小时前
边看、边听、边说,MiniCPM-0-4.5 全双工全模态模型;Pan-Cancer scRNA-Seq 涵盖三种生物学状态单细胞转录数据集
人工智能·深度学习·机器学习