智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。

Video-XL利用语言模型(LLM)的原生能力,对长视觉序列进行压缩,保留了短视频理解的能力,并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡,仅需一块80G显存的显卡即可处理2048帧输入,对小时级长度视频进行采样,并在视频"海中捞针"任务中取得了接近95%的准确率。

Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值,成为长视频理解的得力助手。该模型的推出,标志着长视频理解技术在效率和准确性上迈出了重要一步,为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前,Video-XL的模型代码已经开源,以促进全球多模态视频理解研究社区的合作和技术共享。

论文标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

论文链接:https://arxiv.org/abs/2409.14485

模型链接:https://huggingface.co/sy1998/Video_XL

项目链接:https://github.com/VectorSpaceLab/Video-XL

相关推荐
鼓风机发现1 分钟前
让 AI 走进物理世界:基于 MCP 协议构建工业级 IoT 智能实验室与语音自动化控制中枢
人工智能·物联网·自动化
BBTSOH159015160443 分钟前
VR每日热点简报2026.1.21
人工智能·vr·具身智能
SelectDB技术团队3 分钟前
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
人工智能·apache
格林威5 分钟前
多相机重叠视场目标关联:解决ID跳变与重复计数的 8 个核心策略,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·计算机视觉·分类·工业相机
得贤招聘官5 分钟前
AI面试破局深水区:从工具迭代到价值重构
人工智能·面试·重构
一只小bit6 分钟前
Qt 多媒体:快速解决音视频播放问题
前端·c++·qt·音视频·cpp·页面
金融小师妹6 分钟前
基于AI多模态分析的日本黄金储备60%跃升研究:外汇结构重构与资产价格联动机制解构
大数据·数据结构·人工智能·深度学习
CHU7290356 分钟前
智慧回收新体验:同城废品回收小程序的便捷功能探索
java·前端·人工智能·小程序·php
JavaEdge.8 分钟前
从结对到自主:让AI交付可运行的工程成果
人工智能
传说故事8 分钟前
【论文自动阅读】SiLRI:Real-world Reinforcement Learning from Suboptimal Interventions
人工智能·机器学习·具身智能